フィルタリング

LLM【事前学習：データセットC-5】

Common Crawl、C4、The Pile、Dolma、FineWebの前処理戦略を系統的に比較分析。各フィルタリング手法の効果と、品質・多様性・コストのトレードオフを可視化

2026.03.31

データセット戦略

LLM【事前学習：データセットC-1】

Common Crawlとスケール戦略：LLMデータセットの出発点大規模言語モデル（LLM）の性能は、訓練データの量と質に大きく左右されます。では、その土台になるデータはどこから来るのでしょうか。本記事では、LLM訓練データの出発点としてよ...

2026.03.25

データセット戦略