実装詳細 大規模言語モデル【Transformer:実装詳細B-4】 FFNと活性化関数の実装:4倍拡張MLPと非線形変換の理論Transformerモデルのパラメータの66%はFFN層に集中しています。この一見シンプルな2層MLPが、なぜこれほど大きな役割を担うのか。本記事では、FFNの詳細構造と活性化関数... 2026.02.01 実装詳細
基礎理論 大規模言語モデル【Transformer:基礎理論A-4】 FFNと活性化関数:Transformerの知識を蓄える場所前回は、Multi-Head Attentionの詳細なメカニズムを学びました。今回は、Transformerのもう1つの重要な部品であるFeed Forward Network ... 2026.01.22 基礎理論