事前学習

LLM 事前学習:Transformer シリーズ総集編 vol.1

## このページでわかることこのページは、大規模言語モデルの『事前学習:Transformer』 シリーズ全体の案内ページです。ブログ A 〜 E を 1 ページにまとめ、一目で把握できるように整理しています。- 何を知りたいときにどのシリ...
データセット戦略

大規模言語モデル【Transformer:データセットC-8】マルチデータセット配合の科学

## 1. データブレンディングの基礎### 1.1 なぜブレンディングが必要か1つのデータセットだけで、あらゆるタスクに強いモデルを作るのは難しくなってきました。そこで重要になるのが、複数ソースをどう組み合わせるかです。(/wp-cont...
データセット戦略

大規模言語モデル【Transformer:データセットC-7】医療・法律・コード・金融への応用

# 特化データセット戦略とドメイン最適化汎用LLMを特定ドメインに特化させることで、専門タスクでの性能を大幅に向上できます。本記事では、**ドメイン特化の戦略と注意点**を詳解します。---## 1. FineWeb-edu:教育的テキスト...
データセット戦略

大規模言語モデル【Transformer:データセットC-6】組織ニーズに合わせた意思決定フレームワーク

# データセット選択ガイダンスプロジェクトマネージャーや意思決定者にとって、データセット選びは技術課題であると同時に経営判断でもあります。本記事では、組織のニーズに合わせて選びやすくするための**意思決定フレームワーク**を整理します。--...
データセット戦略

大規模言語モデル【Transformer:データセットC-5】フィルタリング手法の系統的評価

Common Crawl、C4、The Pile、Dolma、FineWebの前処理戦略を系統的に比較分析。各フィルタリング手法の効果と、品質・多様性・コストのトレードオフを可視化
データセット戦略

大規模言語モデル【Transformer:データセットC-4】70+実験から導かれた最適パイプライン

# FineWebと学習効率の最前線2024年、Hugging Faceが公開した**FineWeb**は、データセット設計に新しい見方を持ち込みました。理論で方針を決めるだけでなく、実験で一つずつ確かめながら最適化していく。その考え方が、...
データセット戦略

大規模言語モデル【Transformer:データセットC-3】再現可能な6段階パイプライン

# Dolmaと前処理の体系化2023年、AllenAIが公開した**Dolma**は、データセット前処理を「職人技」ではなく、再現可能な手順として整理しようとしたプロジェクトです。本記事では、透明性と再現性を重視した6段階パイプラインを追...
データセット戦略

大規模言語モデル【Transformer:データセットC-2】22ソース統合がもたらした性能革命

# The Pileと多様性の発見2020年、EleutherAIが公開した**The Pile**は、LLMデータセット設計の見方を少し変えました。単に量を増やすのではなく、どんな種類のテキストをどう混ぜるかが重要だと示したデータセットで...
データセット戦略

大規模言語モデル【Transformer:データセットC-1】LLMデータセットの出発点

# Common Crawlとスケール戦略大規模言語モデル(LLM)の性能は、**訓練データの量と質**に大きく左右されます。では、その土台になるデータはどこから来るのでしょうか。本記事では、LLM訓練データの出発点としてよく挙げられるCo...
VLM

【VLM】LLaVA-1.5 論文解説&VLM完全ガイド|基礎から本番運用まで

はじめにVision Language Model(VLM)の歴史において、一つの分岐点とも言える論文が存在します。2023年版の 「Improved Baselines with Visual Instruction Tuning (LL...