Shion - News report AI lands

Stable Diffusion + PyTorchでアニメキャラクター生成に挑戦！（前編）

📚 学術的背景本プロジェクトの基礎となる重要な学術研究：主要参考論文Denoising Diffusion Probabilistic Models (DDPM)Ho, J., Jain, A., & Abbeel, P. (2020)UR...

2026.02.18

画像生成

推論最適化と実装上の工夫：Mixed Precision, Gradient Checkpointing, 数値安定性175Bパラメータのモデルを訓練するには、単純な実装では2.5TB以上のメモリが必要です。本記事では、このような超大規模モ...

2026.02.13

実装詳細

Transformer進化系とスケーリング最適化：ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer（2017年）から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L...

2026.02.04

実装詳細

残差接続と層正規化の詳細実装12層以上の深いTransformerを安定して訓練するには、残差接続（Skip Connection）と層正規化（Layer Normalization）が不可欠です。本記事では、これらの技術がなぜ必要で、どう...

2026.02.02

実装詳細

FFNと活性化関数の実装：4倍拡張MLPと非線形変換の理論Transformerモデルのパラメータの66%はFFN層に集中しています。この一見シンプルな2層MLPが、なぜこれほど大きな役割を担うのか。本記事では、FFNの詳細構造と活性化関数...

2026.02.01

実装詳細

Causal Maskingと並列学習：訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク（Ca...

2026.01.30

実装詳細

Multi-Head Attentionの詳細アルゴリズム：行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...

2026.01.29

実装詳細

Embedding層と入出力形状の追跡：BPEからベクトル化までブログA（基礎理論）では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...

2026.01.28

実装詳細

基礎用語集と確認問題：Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容は、理解したつもりでも、用語が混ざるとすぐに曖昧になりやすいです。そこでこの記事では、重要用語を一覧で整理...

2026.01.26

基礎理論

因果的Attentionマスクと自己回帰型生成：GPTの生成原理前回は、FFN と活性化関数の役割を学びました。今回は、GPT 型モデルがどの順番で単語を生成しているのかを確認しながら、その制約を支える自己回帰型生成とCausal Atte...

2026.01.26

基礎理論