Transformer

LLM 事前学習：Transformer シリーズ総集編 vol.1

このページでわかることこのページは、大規模言語モデルの「事前学習：Transformer」シリーズ全体の案内ページです。ブログ A 〜 E を 1 ページにまとめ、一目で把握できるように整理しています。何を知りたいときにどのシリーズを見れば...

2026.04.03

シリーズ総集編事前学習

Causal Maskingと並列学習：訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク（Ca...

2026.01.30

実装詳細

Multi-Head Attentionの詳細アルゴリズム：行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...

2026.01.29

実装詳細

Embedding層と入出力形状の追跡：BPEからベクトル化までブログA（基礎理論）では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...

2026.01.28

実装詳細

基礎用語集と確認問題：Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容は、理解したつもりでも、用語が混ざるとすぐに曖昧になりやすいです。そこでこの記事では、重要用語を一覧で整理...

2026.01.26

基礎理論

因果的Attentionマスクと自己回帰型生成：GPTの生成原理前回は、FFN と活性化関数の役割を学びました。今回は、GPT 型モデルがどの順番で単語を生成しているのかを確認しながら、その制約を支える自己回帰型生成とCausal Atte...

2026.01.26

基礎理論

FFNと活性化関数：Transformerの知識を蓄える場所前回は、Multi-Head Attention の詳細なメカニズムを学びました。今回は、そこで拾った文脈情報をどう扱うのかという視点から、Transformer のもう1つの重要...

2026.01.22

基礎理論

Multi-Head Attentionの詳細メカニズム：文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。ここで押さえたいのは、Attentionが...

2026.01.22

基礎理論

言語モデルの本質と進化軌跡：N-gramからTransformerへスマートフォンのキーボードで「私は学校へ」と入力した時、次に出現しそうな単語を予測する機能が働きます。この「次に来そうな単語を予測する能力」こそが、言語モデル（Langua...

2026.01.20

基礎理論

Soraとは？Soraは、OpenAIによって2024年2月にリリースされたテキストからビデオを生成するAIモデルです。Prompt: A stylish woman walks down a Tokyo street filled wit...

2024.02.29

論文