News report AI lands - ~文脈の応用と解釈性の余地~

大規模言語モデル【Transformer：実装詳細B-5】

残差接続と層正規化の詳細実装12層以上の深いTransformerを安定して訓練するには、残差接続（Skip Connection）と層正規化（Layer Normalization）が不可欠です。本記事では、これらの技術がなぜ必要で...

2026.02.02

実装詳細

FFNと活性化関数の実装：4倍拡張MLPと非線形変換の理論Transformerモデルのパラメータの66%はFFN層に集中しています。この一見シンプルな2層MLPが、なぜこれほど大きな役割を担うのか。本記事では、FFNの詳細構造と活性化関数...

2026.02.01

実装詳細

Causal Maskingと並列学習：訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク（Ca...

2026.01.30

実装詳細

Multi-Head Attentionの詳細アルゴリズム：行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...

2026.01.29

実装詳細

Embedding層と入出力形状の追跡：BPEからベクトル化までブログA（基礎理論）では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...

2026.01.28

実装詳細

基礎用語集と確認問題：Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。重要用語（20語）アーキテクチャ関連用語日本語簡潔な定義Langua...

2026.01.26

基礎理論

因果的Attentionマスクと自己回帰型生成：GPTの生成原理前回は、FFNと活性化関数の役割を学びました。今回は、GPT型モデルがどのようにテキストを生成するのか、その核心である自己回帰型生成とCausal Attention Mask...

2026.01.26

基礎理論

FFNと活性化関数：Transformerの知識を蓄える場所前回は、Multi-Head Attentionの詳細なメカニズムを学びました。今回は、Transformerのもう1つの重要な部品であるFeed Forward Network ...

2026.01.22

基礎理論

Multi-Head Attentionの詳細メカニズム：文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。以前のブログでもTransformerにつ...

2026.01.22

基礎理論

Transformerモデル構造の全体像：3つの主要コンポーネント前回の記事で、言語モデルがN-gramからRNN、そしてTransformerへと進化した歴史を学びました。今回は、Transformerの具体的なモデル構造を詳しく解説しま...

2026.01.20

基礎理論