大規模言語モデル【Transformer：基礎理論A-6】

基礎用語集と確認問題：Transformerの理解度チェック

これまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。

重要用語（20語）

アーキテクチャ関連

用語	日本語	簡潔な定義
Language Model	言語モデル	テキストの生起確率 $P (x_{1}, \dots, x_{L})$ をモデル化したもの
Transformer	トランスフォーマー	2017年に提案されたニューラルネットワークアーキテクチャ。Attentionメカニズムを最大限活用
RNN	リカレントニューラルネットワーク	トークンを順次処理する古いアーキテクチャ。勾配消失の問題あり
N-gram	エヌグラム	直近 N-1 個の単語だけを見て次の単語を予測する言語モデル
Decoder-only Architecture	デコーダーのみ型アーキテクチャ	GPT型モデルの構造。エンコーダーを持たず、デコーダーのみで構成

Attention関連

用語	日本語	簡潔な定義
Attention	アテンション	トークン間の関連性を計算し、文脈を把握する機構
Multi-Head Attention	マルチヘッドアテンション	Attention処理を複数ヘッドで並列実行し、結果を統合
Query (Q)	クエリ	Attention計算で「情報が欲しい」という問い合わせを表すベクトル
Key (K)	キー	Attention計算で「何に関する情報か」を示すインデックス
Value (V)	バリュー	Attention計算で実際の情報内容を持つベクトル
Self-Attention	セルフアテンション	同一の系列内でトークン間の関連性を計算するAttention
Scaled Dot-Product Attention	スケール付き内積アテンション	$\frac{Q \cdot K^{T}}{\sqrt{d_{k}}}$ dkQ⋅KT という計算式でAttentionスコアを算出
Causal Attention Mask	因果的アテンションマスク	テキスト生成時、未来のトークンへのアテンションをマスクする技法

コンポーネント関連

用語	日本語	簡潔な定義
Embedding	エンベディング	離散的な単語を連続値の高次元ベクトルに変換するプロセス
Tokenization	トークン化	テキストを最小処理単位（トークン）に分割するプロセス
Positional Encoding	位置エンコーディング	各トークンの位置情報をベクトルに追加
Feed Forward Network (FFN)	フィードフォワードネットワーク	Transformerの中間層。2層のMLPで知識を蓄積
Residual Connection	残差接続	ブロックの入力を出力に加算し、深い層の学習を安定させる技法
Layer Normalization	レイヤー正規化	各層の出力を正規化し、学習を安定させる技法
Softmax	ソフトマックス	入力ベクトルを確率分布に変換する関数。Attentionで使用

確認問題（10問）

以下の問題で、これまでの理解度をチェックしましょう。

問1：言語モデルの根本的な役割

Q: 言語モデルの根本的な役割は何か、簡潔に述べよ。

💡 解答例

言語モデルは、テキストの生起確率 $P(x_1, x_2, \cdots, x_L)$をモデル化し、与えられた文脈から次の単語を予測すること で、テキスト生成や自然言語理解を実現する。

問2：RNNとTransformerの違い

Q: RNNとTransformerの主な違いを、「計算方法」と「長距離依存性」の2点から説明せよ。

💡 解答例

計算方法：
　RNN：トークンを順次処理（逐次的）。各ステップが前のステップに依存
　Transformer：全トークンを同時に処理（並列）。逐次依存がない

長距離依存性：
　RNN：勾配が層を遡る過程で消失するため、遠い過去の情報を学習できない
　Transformer：全トークン間に直接的な接続があるため、任意の距離の依存関係を学習可能

問3：Attentionが解決した問題

Q: Attention メカニズムが解決した「RNNの2つの根本的な問題」を述べよ。

💡 解答例

1. 勾配消失問題：Attentionでは全トークン間に直接接続があるため、勾配の経路が短くなり、消失しない

2. 学習の遅さ：Transformerの並列計算により、RNNの逐次処理から脱却でき、GPU/TPUを最大限活用可能

問4：Multi-Headの理由

Q: Multi-Head Attention で複数ヘッドを使う理由を述べよ。

💡 解答例

各ヘッドが異なる線形変換を用いることで、テキストの異なる側面（文法的関係、意味的関係、共参照関係など）を並列に学習でき、単一ヘッドでは捉えられない多角的な情報を獲得できるから。

問5：スケーリングの理由

Q: なぜ Attention スコアの計算で、内積を $\sqrt{d_{k}}$ dk で割る（スケーリング）のか？

💡 解答例

次元数 $d_k$ が大きいほど、内積の分散が増大するため、スケーリングなしではスコアが非常に大きな値になり、Softmax関数の出力が一部のトークンに極端に集中してしまう。スケーリングにより、Softmaxの出力を「バランスの取れた確率分布」に保つ。

問6：FFNのパラメータ割合

Q: FFN が占めるパラメータ数が全体の 2/3 以上である理由は何か？

💡 解答例

FFN は モデルの「知識」を蓄える主要な場所 であり、事前学習で学習した大量のテキストからの知識（意味、文法、常識等）をニューラルメモリの形で保持しているため。

問7：位置エンコーディングの必要性

Q: Embedding層で位置エンコーディングが必要な理由を述べよ。

💡 解答例

Transformerは全トークンを同時に処理するため、トークンの順序情報が自動的には含まれない。位置エンコーディングを追加することで、「どの位置にあるトークンか」という情報を明示的にモデルに与える。

問8：Causal Maskの役割

Q: Causal Attention Mask は、訓練時にどのような問題を防ぐのか？

💡 解答例

訓練時に全ての正解トークンが与えられているため、マスクがなければモデルが未来のトークン情報を参照して「カンニング」してしまう。これにより、推論時（1トークンずつ生成）の挙動と訓練時の挙動に矛盾が生じるのを防ぐ。

問9：残差接続と層正規化

Q: Residual Connection と Layer Normalization は、なぜ深いTransformerの学習に必須なのか？

💡 解答例

必須であると言える。これらがなければ、20層以上のTransformerは安定して訓練できない。

残差接続：入力を出力に加算することで、勾配の経路を短くし、勾配消失を防ぎ、深い層の学習を安定させる
層正規化：各層の出力スケールを統一し、学習の不安定性を防ぎ、収束を早める

問10：Transformerが採用され続ける理由

Q: Transformerが「2017年以降、ほぼ基本構造を変えずに採用され続けている」理由を述べよ。

💡 解答例

汎用性が高い：Encoder-Decoder型、Decoder-only型など、様々な応用に対応可能
スケーラブル：パラメータ数を増やすことで性能が向上する scaling law に従い、大規模化による性能向上が期待できる
並列計算に最適：GPUの並列計算能力を最大限活用でき、訓練効率が良い
理論的に洗練されている：Attention、正規化、活性化関数など、各コンポーネントがバランスよく設計されている

まとめ

お疲れ様でした。次は大規模言語モデル入門【Transformer：実装編B】へ進んでください。

基礎理論Aで学んだ内容

セクション	内容
A-1	言語モデルの進化（N-gram → RNN → Transformer）
A-2	Transformerの全体構造と3つのコンポーネント
A-3	Multi-Head Attentionの詳細メカニズム
A-4	FFNと活性化関数（知識の蓄積）
A-5	Causal Maskと自己回帰型生成
A-6	用語集と確認問題（本記事）

📖 参考文献

主要論文・用語出典

Vaswani, A., et al. (2017): “Attention Is All You Need”, NeurIPS 2017
- https://arxiv.org/abs/1706.03762
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013): “Efficient Estimation of Word Representations in Vector Space”, ICLR 2013
- https://arxiv.org/abs/1301.3781
Sennrich, R., Haddow, B., & Birch, A. (2016): “Neural Machine Translation of Rare Words with Subword Units”, ACL 2016
- https://arxiv.org/abs/1508.07909
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016): “Layer Normalization”, NeurIPS 2016
- https://arxiv.org/abs/1607.06450
He, K., Zhang, X., Ren, S., & Sun, J. (2016): “Deep Residual Learning for Image Recognition”, CVPR 2016
- https://arxiv.org/abs/1512.03385

補足資料

Hochreiter, S., & Schmidhuber, J. (1997): “Long Short-Term Memory”, Neural Computation
Radford, A., et al. (2019): “Language Models are Unsupervised Multitask Learners”

📚 シリーズ案内

この記事は「LLM事前学習シリーズ」の一部です。

大規模言語モデル【Transformer：基礎理論A-6】

基礎用語集と確認問題：Transformerの理解度チェック

重要用語（20語）

アーキテクチャ関連

Attention関連

コンポーネント関連

確認問題（10問）

問1：言語モデルの根本的な役割

問2：RNNとTransformerの違い

問3：Attentionが解決した問題

問4：Multi-Headの理由

問5：スケーリングの理由

問6：FFNのパラメータ割合

問7：位置エンコーディングの必要性

問8：Causal Maskの役割

問9：残差接続と層正規化

問10：Transformerが採用され続ける理由

まとめ

📖 参考文献

主要論文・用語出典

補足資料

📚 シリーズ案内

ブログA: 基礎理論

コメント