基礎理論 大規模言語モデル入門【Transformer:基礎理論A-3】 Multi-Head Attentionの詳細メカニズム:文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。以前のブログでもTransformerにつ... 2026.01.22 LLM事前学習基礎理論
論文 [論文] 『Ring Attention with Blockwise Transformers』の論文を読む Ring Attentionとは?『Ring Attention with Blockwise Transformers』は、AIモデルで長いシーケンスを効率的に処理するために、ブロック単位のAttention機構とフィードフォワード操作の... 2024.02.15 論文