Wikipedia

データセット戦略

LLM【事前学習:データセットC-2】

The Pileと多様性の発見:22ソース統合がもたらした性能革命2020年、EleutherAIが公開したThe Pileは、LLMデータセット設計の見方を少し変えました。単に量を増やすのではなく、どんな種類のテキストをどう混ぜるかが重要...