LLM【スケール則:基礎理論A-6】

基礎理論

用語集と基礎知識:スケーリング則の索引

A1 から A5 までを読むと、パラメータ数、計算資源、Chinchilla 則、性能予測といった言葉が何度も出てきます。そこで必要になるのが、用語の意味を一度そろえておくことです。

このページは、スケーリング則シリーズを通して出てくる専門用語を整理し、「この言葉は何を指しているのか?」をすぐに確認できるようにするための索引です。細かい定義を丸暗記するというより、各記事で出てきた言葉を同じ意味で読めるようにすることが目的です。


1. この用語集は何のためにあるのか?

スケーリング則の話は、似たような略語や英語表現が多く、最初は混乱しやすいです。たとえば、FLOPs と FLOPS は似ていますが意味が違いますし、N と D も単独では分かりにくいです。

この用語集の役割は、そうした表記の揺れをなくし、記事をまたいでも同じ前提で読めるようにすることです。特に A3 以降は、研究名、モデル名、実務用語が混ざってくるので、一覧があるだけで理解の速度がかなり変わります。

読み方としては、次の順番が分かりやすいです。

  1. まず A1 から A5 を読んで、流れをつかむ
  2. 分からない用語が出てきたら、この索引で確認する
  3. 必要なら「初出」の記事に戻って文脈を確認する

2. 基本概念

まず押さえたいのは、スケール則の土台になる用語です。ここが分かると、後続の記事の説明が一気に読みやすくなります。

用語(日本語) 用語(英語) 定義 初出
パラメータ数 Parameters (N) モデル内の学習可能な重みの総数。モデルの表現力や容量に関係する A-1
データセットサイズ Dataset Size (D) 学習に用いる文章データの総量。通常はトークン数で測る A-1
計算資源 Compute (C) モデル訓練に必要な総計算量。FLOPs で表す A-1
スケール則 Scaling Law N、D、C を増やすと損失が予測可能に減少する経験則 A-1
損失 Loss モデルがどれだけ予測を外したかを表す指標。低いほど良い A-1
Test Loss Test Loss テストデータ上での損失。学習済みモデルの汎化性能を見る指標 A-1

ここで大事なのは、N が大きいから必ず良い、D が多いから必ず良い、という単純な話ではないことです。A1 で見た通り、これらは組み合わせで効いてきます。


3. 計算量を読むときの用語

スケール則の議論では、計算量まわりの単位が頻出します。似ているようで役割が違うため、ここは混同しないほうがよいです。

用語(日本語) 用語(英語) 定義 初出
浮動小数点演算 Floating Point Operation コンピュータが行う基本計算の単位 A-2
FLOPs(小文字) FLOPs 総計算量の単位。何回の演算を行ったかを表す A-2
FLOPS(大文字) FLOPS ハードウェア性能の単位。1 秒あたりに何回の演算が可能かを表す A-2
PF-days Petaflops-days 計算量の実用的な単位。ペタフロップス級の計算を何日回したかに相当する A-2
公式 C=6ND Compute Formula 訓練に必要な計算量を見積もるための近似式 A-2

A2 で見たように、FLOPs は「どれだけ計算したか」、FLOPS は「どれだけ速いか」です。この違いを取り違えると、予算の話と性能の話が混ざってしまいます。


4. 研究とモデルの名前

A3 では、スケール則がどの研究で確認されてきたのかを扱いました。ここでは、そのときに出てくる研究名やモデル名を整理します。

用語(日本語) 用語(英語) 定義 初出
スケーリング則論文 Scaling Laws for Neural Language Models OpenAI が 2020 年に発表した主要論文 A-3
Chinchilla 則 Training Compute-Optimal LLMs DeepMind が 2022 年に発表した、最適配分を示した主要論文 A-3
Chinchilla Chinchilla Chinchilla 則に基づいて設計された DeepMind のモデル A-4
Gopher Gopher DeepMind が 2021 年に発表した 280B パラメータのモデル A-4
GPT-3 GPT-3 OpenAI が 2020 年に発表した 175B パラメータのモデル A-3
Llama 2 Llama 2 Meta が 2023 年に発表したモデルシリーズ。大規模データで学習された代表例 A-3

この中では、Chinchilla と Gopher の比較が特に重要です。A4 で見たように、どちらが大きいかより、どの配分で学習したかが本質になります。


5. Chinchilla 則まわりの重要語

A4 では、計算量を固定したときに N と D をどう配分するかを扱いました。ここに出てくる用語は、実務でもそのまま使いやすいです。

用語(日本語) 用語(英語) 定義 初出
最適パラメータ数 Optimal N 計算量を固定した場合の最適なパラメータ数 A-4
最適学習トークン数 Optimal D 計算量を固定した場合の最適な学習トークン数 A-4
D/N比 Data-to-Parameter Ratio 学習トークン数とパラメータ数の比率。Chinchilla 則では約 20 が目安 A-4
Chinchilla Trap Chinchilla Trap 訓練効率を最適化しても、推論コストが高くなることがある問題 A-4

特に D/N 比は、モデル設計を考えるときの目安になります。ただし、これは絶対法則ではなく、あくまで訓練計算の条件をそろえたときの実践的な指標です。


6. 実務で出てくる応用語

A5 では、スケール則を投資判断やモデル選択にどうつなげるかを扱いました。ここでは、そのときによく出てくる言葉をまとめます。

用語(日本語) 用語(英語) 定義 初出
性能予測 Performance Prediction 小規模モデルの結果から大規模モデルの性能を見積もること A-5
リスク低減 Risk Mitigation 予測を使って、巨額投資の不確実性を下げること A-5
意思決定フレームワーク Decision Framework 計算予算が与えられたときに、設計方針を決める手順 A-5

この 3 つは、研究の話を実務に変換するときの橋渡し役です。A5 を読むときは、「性能予測がどう投資判断につながるか」を意識すると整理しやすくなります。


7. Transformer と学習の基礎

スケール則の議論は、Transformer と事前学習の理解があるとかなり読みやすくなります。ここでは、その基礎語を確認します。

用語(日本語) 用語(英語) 定義 初出
Transformer Transformer 2017 年に提案されたニューラルネットワークアーキテクチャ。現代 LLM の基盤 Transformer
事前学習 Pre-training 大規模テキストでモデルを事前に学習すること 事前学習
フォワードパス Forward Pass 入力がモデルを通って予測を出す過程 A-2
バックワードパス Backward Pass 誤差から勾配を求め、パラメータを更新する過程 A-2
トークン Token テキストを分割した最小単位。単語やサブワードに相当する A-1
埋め込み Embedding トークンをベクトルに変換する処理 B-1

スケール則の話を読んでいると、N や D に目が行きがちですが、実際にはこの土台がないと話の全体像がつかみにくくなります。


8. 実装と戦略で出てくる関連語

今回のブログ記事のA6 はスケーリング則シリーズの索引ですが、実際にはブログ B や C、E にもつながります。そこで、実装や戦略の文脈で出てきやすい語もここに置いておきます。

用語(日本語) 用語(英語) 定義 初出
バッチサイズ Batch Size 1 回の勾配更新で処理するサンプル数 B-1
学習率 Learning Rate パラメータ更新の大きさを制御するハイパーパラメータ B-3
勾配累積 Gradient Accumulation メモリ制約下で大きいバッチサイズを擬似的に実現する手法 B-2
KVキャッシュ KV Cache 推論時に Key-Value を保存して計算を省略する最適化 B-7
量子化 Quantization モデルの精度を少し落として計算効率を上げる手法 B-7
計算予算 Compute Budget LLM 訓練に割り当てられた計算資源の総量 C-1
ROI Return on Investment 投資対効果を表す指標 C-3
TCO Total Cost of Ownership 訓練だけでなく推論・運用を含む総コスト E-2

このあたりは、単に用語を覚えるだけではなく、「技術の話がどこで経営判断に変わるか」を押さえるために重要です。


9. この用語集の使い方

このページは、すべてを一度に暗記するためのものではありません。むしろ、記事を読み進めるときの補助線として使うほうが役立ちます。

  1. 用語の意味が曖昧なら、この表で確認する
  2. もっと深く知りたければ、「初出」の記事に戻る
  3. 似た語が並んでいたら、役割の違いを見比べる
  4. 実務で使うなら、性能・計算・運用のどこに効く言葉かを意識する

特にスケール則シリーズでは、同じ単語でも文脈によって意味の重みが少し変わります。だからこそ、辞書としてだけでなく、シリーズ全体の地図として使うのがよいです。


10. 今回のブログの考察

用語集は地味に見えますが、実際にはかなり重要です。なぜなら、LLM の議論は、用語の定義がずれるだけで簡単に噛み合わなくなるからです。パラメータ数、計算資源、損失、Chinchilla 則といった語を同じ意味で共有できると、A1 から A5 までの話が一本につながって見えるようになります。

今回のシリーズでは、スケール則そのものだけでなく、証拠、最適配分、実務的な応用までを順番に見てきました。その流れを支えているのが、この用語の整理です。つまり、用語集は付録ではなく、シリーズ全体の理解を安定させるための土台だと言えます。

実務でも同じです。チーム内でLLMの文脈が共有できていないと、同じ「性能」や「計算量」という語でも、誰かは学習時の指標を、誰かは推論時のコストを思い浮かべたりしてしまいます。そうなると、議論は進んでいるようで噛み合っていません。だから、まず文脈を共有することが、仕事をする上で必須であると言えます。

参考文献

  • Kaplan, J. et al. (2020). “Scaling Laws for Neural Language Models.” arXiv:2001.08361
  • Hoffmann, J. et al. (2022). “Training Compute-Optimal Large Language Models.” arXiv:2203.15556
  • Brown, T. et al. (2020). “Language Models are Few-Shot Learners.” arXiv:2005.14165

このシリーズの案内

シリーズホーム: LLM スケーリング則完全ガイド
前の記事: A-5: スケール則の応用と実務的影響

コメント

タイトルとURLをコピーしました