大規模言語モデル【Transformer:基礎理論A-6】

基礎理論

基礎用語集と確認問題:Transformerの理解度チェック

これまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。

重要用語(20語)

アーキテクチャ関連

用語 日本語 簡潔な定義
Language Model 言語モデル テキストの生起確率 P ( x 1 , , x L ) をモデル化したもの
Transformer トランスフォーマー 2017年に提案されたニューラルネットワークアーキテクチャ。Attentionメカニズムを最大限活用
RNN リカレントニューラルネットワーク トークンを順次処理する古いアーキテクチャ。勾配消失の問題あり
N-gram エヌグラム 直近 N-1 個の単語だけを見て次の単語を予測する言語モデル
Decoder-only Architecture デコーダーのみ型アーキテクチャ GPT型モデルの構造。エンコーダーを持たず、デコーダーのみで構成

Attention関連

用語 日本語 簡潔な定義
Attention アテンション トークン間の関連性を計算し、文脈を把握する機構
Multi-Head Attention マルチヘッドアテンション Attention処理を複数ヘッドで並列実行し、結果を統合
Query (Q) クエリ Attention計算で「情報が欲しい」という問い合わせを表すベクトル
Key (K) キー Attention計算で「何に関する情報か」を示すインデックス
Value (V) バリュー Attention計算で実際の情報内容を持つベクトル
Self-Attention セルフアテンション 同一の系列内でトークン間の関連性を計算するAttention
Scaled Dot-Product Attention スケール付き内積アテンション Q K T d kdk​​QKT​ という計算式でAttentionスコアを算出
Causal Attention Mask 因果的アテンションマスク テキスト生成時、未来のトークンへのアテンションをマスクする技法

コンポーネント関連

用語 日本語 簡潔な定義
Embedding エンベディング 離散的な単語を連続値の高次元ベクトルに変換するプロセス
Tokenization トークン化 テキストを最小処理単位(トークン)に分割するプロセス
Positional Encoding 位置エンコーディング 各トークンの位置情報をベクトルに追加
Feed Forward Network (FFN) フィードフォワードネットワーク Transformerの中間層。2層のMLPで知識を蓄積
Residual Connection 残差接続 ブロックの入力を出力に加算し、深い層の学習を安定させる技法
Layer Normalization レイヤー正規化 各層の出力を正規化し、学習を安定させる技法
Softmax ソフトマックス 入力ベクトルを確率分布に変換する関数。Attentionで使用

確認問題(10問)

以下の問題で、これまでの理解度をチェックしましょう。

問1:言語モデルの根本的な役割

Q: 言語モデルの根本的な役割は何か、簡潔に述べよ。

💡 解答例

言語モデルは、テキストの生起確率 $P(x_1, x_2, \cdots, x_L)$をモデル化し、与えられた文脈から次の単語を予測すること で、テキスト生成や自然言語理解を実現する。

問2:RNNとTransformerの違い

Q: RNNとTransformerの主な違いを、「計算方法」と「長距離依存性」の2点から説明せよ。

💡 解答例

計算方法:
 RNN:トークンを順次処理(逐次的)。各ステップが前のステップに依存
 Transformer:全トークンを同時に処理(並列)。逐次依存がない

長距離依存性:
 RNN:勾配が層を遡る過程で消失するため、遠い過去の情報を学習できない
 Transformer:全トークン間に直接的な接続があるため、任意の距離の依存関係を学習可能

問3:Attentionが解決した問題

Q: Attention メカニズムが解決した「RNNの2つの根本的な問題」を述べよ。

💡 解答例

1. 勾配消失問題:Attentionでは全トークン間に直接接続があるため、勾配の経路が短くなり、消失しない

2. 学習の遅さ:Transformerの並列計算により、RNNの逐次処理から脱却でき、GPU/TPUを最大限活用可能

問4:Multi-Headの理由

Q: Multi-Head Attention で複数ヘッドを使う理由を述べよ。

💡 解答例

各ヘッドが異なる線形変換を用いることで、テキストの異なる側面(文法的関係、意味的関係、共参照関係など)を並列に学習 でき、単一ヘッドでは捉えられない多角的な情報を獲得できるから。

問5:スケーリングの理由

Q: なぜ Attention スコアの計算で、内積を d kdk​​ で割る(スケーリング)のか?

💡 解答例

次元数 $d_k$ が大きいほど、内積の分散が増大するため、スケーリングなしではスコアが非常に大きな値になり、Softmax関数の出力が一部のトークンに極端に集中してしまう。スケーリングにより、Softmaxの出力を「バランスの取れた確率分布」に保つ。

問6:FFNのパラメータ割合

Q: FFN が占めるパラメータ数が全体の 2/3 以上である理由は何か?

💡 解答例

FFN は モデルの「知識」を蓄える主要な場所 であり、事前学習で学習した大量のテキストからの知識(意味、文法、常識等)をニューラルメモリの形で保持しているため。

問7:位置エンコーディングの必要性

Q: Embedding層で位置エンコーディングが必要な理由を述べよ。

💡 解答例

Transformerは全トークンを同時に処理するため、トークンの順序情報が自動的には含まれない。位置エンコーディングを追加することで、「どの位置にあるトークンか」という情報を明示的にモデルに与える。

問8:Causal Maskの役割

Q: Causal Attention Mask は、訓練時にどのような問題を防ぐのか?

💡 解答例

訓練時に全ての正解トークンが与えられているため、マスクがなければモデルが未来のトークン情報を参照して「カンニング」してしまう。これにより、推論時(1トークンずつ生成)の挙動と訓練時の挙動に矛盾が生じるのを防ぐ。

問9:残差接続と層正規化

Q: Residual Connection と Layer Normalization は、なぜ深いTransformerの学習に必須なのか?

💡 解答例

必須であると言える。これらがなければ、20層以上のTransformerは安定して訓練できない。

  • 残差接続:入力を出力に加算することで、勾配の経路を短くし、勾配消失を防ぎ、深い層の学習を安定させる
  • 層正規化:各層の出力スケールを統一し、学習の不安定性を防ぎ、収束を早める

問10:Transformerが採用され続ける理由

Q: Transformerが「2017年以降、ほぼ基本構造を変えずに採用され続けている」理由を述べよ。

💡 解答例

  1. 汎用性が高い:Encoder-Decoder型、Decoder-only型など、様々な応用に対応可能
  2. スケーラブル:パラメータ数を増やすことで性能が向上する scaling law に従い、大規模化による性能向上が期待できる
  3. 並列計算に最適:GPUの並列計算能力を最大限活用でき、訓練効率が良い
  4. 理論的に洗練されている:Attention、正規化、活性化関数など、各コンポーネントがバランスよく設計されている

まとめ

お疲れ様でした。次は大規模言語モデル入門【Transformer:実装編B】へ進んでください。

基礎理論Aで学んだ内容

セクション 内容
A-1 言語モデルの進化(N-gram → RNN → Transformer)
A-2 Transformerの全体構造と3つのコンポーネント
A-3 Multi-Head Attentionの詳細メカニズム
A-4 FFNと活性化関数(知識の蓄積)
A-5 Causal Maskと自己回帰型生成
A-6 用語集と確認問題(本記事)

📖 参考文献

主要論文・用語出典

  1. Vaswani, A., et al. (2017): “Attention Is All You Need”, NeurIPS 2017
  2. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013): “Efficient Estimation of Word Representations in Vector Space”, ICLR 2013
  3. Sennrich, R., Haddow, B., & Birch, A. (2016): “Neural Machine Translation of Rare Words with Subword Units”, ACL 2016
  4. Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016): “Layer Normalization”, NeurIPS 2016
  5. He, K., Zhang, X., Ren, S., & Sun, J. (2016): “Deep Residual Learning for Image Recognition”, CVPR 2016

補足資料

  1. Hochreiter, S., & Schmidhuber, J. (1997): “Long Short-Term Memory”, Neural Computation
  2. Radford, A., et al. (2019): “Language Models are Unsupervised Multitask Learners”

📚 シリーズ案内

この記事は「LLM事前学習シリーズ」の一部です。

ブログA: 基礎理論

  1. Transformer:基礎理論A-1: 言語モデルの本質と進化軌跡 ✅
  2. Transformer:基礎理論A-2: Transformerモデル構造の全体像 ✅
  3. Transformer:基礎理論A-3: Multi-Head Attentionの詳細メカニズム ✅
  4. Transformer:基礎理論A-4: FFNと活性化関数 ✅
  5. Transformer:基礎理論A-5: 因果的Attentionマスクと自己回帰型生成 ✅
  6. Transformer:基礎理論A-6: 基礎用語集と確認問題(本記事)✅

コメント

タイトルとURLをコピーしました