スケーリング

LLM【事前学習：データセットC-1】

Common Crawlとスケール戦略：LLMデータセットの出発点大規模言語モデル（LLM）の性能は、訓練データの量と質に大きく左右されます。では、その土台になるデータはどこから来るのでしょうか。本記事では、LLM訓練データの出発点としてよ...

2026.03.25

データセット戦略

LLM【事前学習：実装詳細B-６】

Transformer進化系とスケーリング最適化：ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer（2017年）から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L...

2026.02.04

実装詳細