Shion

画像生成

Stable Diffusion + PyTorchでアニメキャラクター生成に挑戦!(前編)

📚 学術的背景本プロジェクトの基礎となる重要な学術研究:主要参考論文Denoising Diffusion Probabilistic Models (DDPM)Ho, J., Jain, A., & Abbeel, P. (2020)UR...
実装詳細

LLM【事前学習:実装詳細B-7】

推論最適化と実装上の工夫:Mixed Precision, Gradient Checkpointing, 数値安定性175Bパラメータのモデルを訓練するには、単純な実装では2.5TB以上のメモリが必要です。本記事では、このような超大規模モ...
実装詳細

LLM【事前学習:実装詳細B-6】

Transformer進化系とスケーリング最適化:ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer(2017年)から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L...
実装詳細

LLM【事前学習:実装詳細B-5】

残差接続と層正規化の詳細実装12層以上の深いTransformerを安定して訓練するには、残差接続(Skip Connection)と層正規化(Layer Normalization)が不可欠です。本記事では、これらの技術がなぜ必要で、どう...
実装詳細

LLM【事前学習:実装詳細B-4】

FFNと活性化関数の実装:4倍拡張MLPと非線形変換の理論Transformerモデルのパラメータの66%はFFN層に集中しています。この一見シンプルな2層MLPが、なぜこれほど大きな役割を担うのか。本記事では、FFNの詳細構造と活性化関数...
実装詳細

LLM【事前学習:実装詳細B-3】

Causal Maskingと並列学習:訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク(Ca...
実装詳細

LLM【事前学習:実装詳細B-2】

Multi-Head Attentionの詳細アルゴリズム:行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...
実装詳細

LLM【事前学習:実装詳細B-1】

Embedding層と入出力形状の追跡:BPEからベクトル化までブログA(基礎理論)では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...
基礎理論

LLM【Transformer:基礎理論A-6】

基礎用語集と確認問題:Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容は、理解したつもりでも、用語が混ざるとすぐに曖昧になりやすいです。そこでこの記事では、重要用語を一覧で整理...
基礎理論

LLM【Transformer:基礎理論A-5】

因果的Attentionマスクと自己回帰型生成:GPTの生成原理前回は、FFN と活性化関数の役割を学びました。今回は、GPT 型モデルがどの順番で単語を生成しているのかを確認しながら、その制約を支える自己回帰型生成とCausal Atte...