実装

実装詳細

大規模言語モデル【Transformer:実装詳細B-3】

Causal Maskingと並列学習:訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク(Ca...
実装詳細

大規模言語モデル【Transformer:実装詳細B-2】

Multi-Head Attentionの詳細アルゴリズム:行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...
実装詳細

大規模言語モデル【Transformer:実装詳細B-1】

Embedding層と入出力形状の追跡:BPEからベクトル化までブログA(基礎理論)では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...