Transformer

実装詳細

大規模言語モデル【Transformer:実装詳細B-3】

Causal Maskingと並列学習:訓練と推論の効率化前回はMulti-Head Attentionの計算フローを学びました。今回は、テキスト生成に不可欠なCausal Maskの実装と、訓練・推論の違いを解説します。因果的マスク(Ca...
実装詳細

大規模言語モデル【Transformer:実装詳細B-2】

Multi-Head Attentionの詳細アルゴリズム:行列演算の完全追跡前回はEmbedding層の実装を学びました。今回は、Transformerの心臓部であるMulti-Head Attentionの計算フローを、行列形状とともに...
実装詳細

大規模言語モデル【Transformer:実装詳細B-1】

Embedding層と入出力形状の追跡:BPEからベクトル化までブログA(基礎理論)では、Transformerの全体構造を学びました。ここからは、各コンポーネントの実装詳細を深掘りしていきます。まずは、テキストをモデルが処理できる形式に変...
基礎理論

大規模言語モデル【Transformer:基礎理論A-6】

基礎用語集と確認問題:Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。重要用語(20語)アーキテクチャ関連用語日本語簡潔な定義Langua...
基礎理論

大規模言語モデル【Transformer:基礎理論A-5】

因果的Attentionマスクと自己回帰型生成:GPTの生成原理前回は、FFNと活性化関数の役割を学びました。今回は、GPT型モデルがどのようにテキストを生成するのか、その核心である自己回帰型生成とCausal Attention Mask...
基礎理論

大規模言語モデル【Transformer:基礎理論A-4】

FFNと活性化関数:Transformerの知識を蓄える場所前回は、Multi-Head Attentionの詳細なメカニズムを学びました。今回は、Transformerのもう1つの重要な部品であるFeed Forward Network ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-3】

Multi-Head Attentionの詳細メカニズム:文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。以前のブログでもTransformerにつ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-1】

言語モデルの本質と進化軌跡:N-gramからTransformerへスマートフォンのキーボードで「私は学校へ」と入力した時、次に出現しそうな単語を予測する機能が働きます。この「次に来そうな単語を予測する能力」こそが、言語モデル(Langua...
論文

[論文] OpenAIの動画生成AI「Sora」の論文を読む

Soraとは?Soraは、OpenAIによって2024年2月にリリースされたテキストからビデオを生成するAIモデルです。Prompt: A stylish woman walks down a Tokyo street filled wit...
論文

[論文]『WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION』

論文の内容この研究について『WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION』の論文では、長いビデオと言語のシーケンスを訓練する際の課題に対処するために、...