AIエージェント

【Awesome GitHub Copilotの使い方2】MCP・Hooks・Workflowsで開発フローを再設計する

前回は「Copilot の出力を整える」話でした。Instructions、Agents、Skills、Plugins を使って、GitHub Copilot を単なる補完ツールではなく、日常開発に寄り添う対話相手として育てるところまでを扱...
AIエージェント

【Awesome GitHub Copilotの使い方1】GitHub Copilotを完全に使いこなすための実践ガイド

GitHub Copilot を導入してから、コード補完は確かに速くなった。けれど、設計の検討、レビューの観点整理、テストケースの洗い出し、調査の効率化まで含めて考えると、まだ使いこなせている実感がない。そう感じている中級エンジニアは少なく...
事前学習

LLM 事前学習:Transformer シリーズ総集編 vol.1

## このページでわかることこのページは、大規模言語モデルの『事前学習:Transformer』 シリーズ全体の案内ページです。ブログ A 〜 E を 1 ページにまとめ、一目で把握できるように整理しています。- 何を知りたいときにどのシリ...
データセット戦略

大規模言語モデル【Transformer:データセットC-8】マルチデータセット配合の科学

## 1. データブレンディングの基礎### 1.1 なぜブレンディングが必要か1つのデータセットだけで、あらゆるタスクに強いモデルを作るのは難しくなってきました。そこで重要になるのが、複数ソースをどう組み合わせるかです。(/wp-cont...
データセット戦略

大規模言語モデル【Transformer:データセットC-7】医療・法律・コード・金融への応用

# 特化データセット戦略とドメイン最適化汎用LLMを特定ドメインに特化させることで、専門タスクでの性能を大幅に向上できます。本記事では、**ドメイン特化の戦略と注意点**を詳解します。---## 1. FineWeb-edu:教育的テキスト...
データセット戦略

大規模言語モデル【Transformer:データセットC-6】組織ニーズに合わせた意思決定フレームワーク

# データセット選択ガイダンスプロジェクトマネージャーや意思決定者にとって、データセット選びは技術課題であると同時に経営判断でもあります。本記事では、組織のニーズに合わせて選びやすくするための**意思決定フレームワーク**を整理します。--...
データセット戦略

大規模言語モデル【Transformer:データセットC-5】フィルタリング手法の系統的評価

Common Crawl、C4、The Pile、Dolma、FineWebの前処理戦略を系統的に比較分析。各フィルタリング手法の効果と、品質・多様性・コストのトレードオフを可視化
データセット戦略

大規模言語モデル【Transformer:データセットC-4】70+実験から導かれた最適パイプライン

# FineWebと学習効率の最前線2024年、Hugging Faceが公開した**FineWeb**は、データセット設計に新しい見方を持ち込みました。理論で方針を決めるだけでなく、実験で一つずつ確かめながら最適化していく。その考え方が、...
データセット戦略

大規模言語モデル【Transformer:データセットC-3】再現可能な6段階パイプライン

# Dolmaと前処理の体系化2023年、AllenAIが公開した**Dolma**は、データセット前処理を「職人技」ではなく、再現可能な手順として整理しようとしたプロジェクトです。本記事では、透明性と再現性を重視した6段階パイプラインを追...
データセット戦略

大規模言語モデル【Transformer:データセットC-2】22ソース統合がもたらした性能革命

# The Pileと多様性の発見2020年、EleutherAIが公開した**The Pile**は、LLMデータセット設計の見方を少し変えました。単に量を増やすのではなく、どんな種類のテキストをどう混ぜるかが重要だと示したデータセットで...