実装詳細

大規模言語モデル【Transformer:実装詳細B-5】

残差接続と層正規化の詳細実装12層以上の深いTransformerを安定して訓練するには、残差接続(Skip Connection) と 層正規化(Layer Normalization) が不可欠です。本記事では、これらの技術がなぜ必要で...
実装詳細

大規模言語モデル【Transformer:実装詳細B-4】

FFNと活性化関数の実装:4倍拡張MLPと非線形変換の理論Transformerモデルのパラメータの66%はFFN層に集中しています。この一見シンプルな2層MLPが、なぜこれほど大きな役割を担うのか。本記事では、FFNの詳細構造と活性化関数...
実装詳細

大規模言語モデル【Transformer:実装詳細B-3】

Causal Maskingと並列学習:訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク(Ca...
実装詳細

大規模言語モデル【Transformer:実装詳細B-2】

Multi-Head Attentionの詳細アルゴリズム:行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...
実装詳細

大規模言語モデル【Transformer:実装詳細B-1】

Embedding層と入出力形状の追跡:BPEからベクトル化までブログA(基礎理論)では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...
基礎理論

大規模言語モデル【Transformer:基礎理論A-6】

基礎用語集と確認問題:Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。重要用語(20語)アーキテクチャ関連用語日本語簡潔な定義Langua...
基礎理論

大規模言語モデル【Transformer:基礎理論A-5】

因果的Attentionマスクと自己回帰型生成:GPTの生成原理前回は、FFNと活性化関数の役割を学びました。今回は、GPT型モデルがどのようにテキストを生成するのか、その核心である自己回帰型生成とCausal Attention Mask...
基礎理論

大規模言語モデル【Transformer:基礎理論A-4】

FFNと活性化関数:Transformerの知識を蓄える場所前回は、Multi-Head Attentionの詳細なメカニズムを学びました。今回は、Transformerのもう1つの重要な部品であるFeed Forward Network ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-3】

Multi-Head Attentionの詳細メカニズム:文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。以前のブログでもTransformerにつ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-2】

Transformerモデル構造の全体像:3つの主要コンポーネント前回の記事で、言語モデルがN-gramからRNN、そしてTransformerへと進化した歴史を学びました。今回は、Transformerの具体的なモデル構造を詳しく解説しま...