多様性

データセット戦略

大規模言語モデル【Transformer:データセットC-2】22ソース統合がもたらした性能革命

# The Pileと多様性の発見2020年、EleutherAIが公開した**The Pile**は、LLMデータセット設計の見方を少し変えました。単に量を増やすのではなく、どんな種類のテキストをどう混ぜるかが重要だと示したデータセットで...