データセット戦略 LLM【事前学習:データセットC-5】 Common Crawl、C4、The Pile、Dolma、FineWebの前処理戦略を系統的に比較分析。各フィルタリング手法の効果と、品質・多様性・コストのトレードオフを可視化 2026.03.31 データセット戦略
データセット戦略 LLM【事前学習:データセットC-2】 The Pileと多様性の発見:22ソース統合がもたらした性能革命2020年、EleutherAIが公開したThe Pileは、LLMデータセット設計の見方を少し変えました。単に量を増やすのではなく、どんな種類のテキストをどう混ぜるかが重要... 2026.03.27 データセット戦略