データセット戦略 LLM【事前学習:データセットC-1】 Common Crawlとスケール戦略:LLMデータセットの出発点大規模言語モデル(LLM)の性能は、訓練データの量と質に大きく左右されます。では、その土台になるデータはどこから来るのでしょうか。本記事では、LLM訓練データの出発点としてよ... 2026.03.25 データセット戦略
実装詳細 LLM【事前学習:実装詳細B-6】 Transformer進化系とスケーリング最適化:ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer(2017年)から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L... 2026.02.04 実装詳細