アブレーション実験

データセット戦略

大規模言語モデル【Transformer:データセットC-4】70+実験から導かれた最適パイプライン

# FineWebと学習効率の最前線2024年、Hugging Faceが公開した**FineWeb**は、データセット設計に新しい見方を持ち込みました。理論で方針を決めるだけでなく、実験で一つずつ確かめながら最適化していく。その考え方が、...