スケーリング

基礎理論

LLM【スケール則:基礎理論A-2】

LLM 訓練に必要な計算量を正確に測る方法を解説。FLOPs と FLOPS の違い、C=6ND の公式、PF-days への変換を学びます。
データセット戦略

LLM【事前学習:データセットC-1】

Common Crawlとスケール戦略:LLMデータセットの出発点大規模言語モデル(LLM)の性能は、訓練データの量と質に大きく左右されます。では、その土台になるデータはどこから来るのでしょうか。本記事では、LLM訓練データの出発点としてよ...
実装詳細

LLM【事前学習:実装詳細B-6】

Transformer進化系とスケーリング最適化:ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer(2017年)から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L...