LLM

基礎理論

大規模言語モデル【Transformer:基礎理論A-6】

基礎用語集と確認問題:Transformerの理解度チェックこれまでの【Transformer:基礎理論 A-1〜A-5】で学んだ内容を、用語集と確認問題で復習しましょう。重要用語(20語)アーキテクチャ関連用語日本語簡潔な定義Langua...
基礎理論

大規模言語モデル【Transformer:基礎理論A-5】

因果的Attentionマスクと自己回帰型生成:GPTの生成原理前回は、FFNと活性化関数の役割を学びました。今回は、GPT型モデルがどのようにテキストを生成するのか、その核心である自己回帰型生成とCausal Attention Mask...
基礎理論

大規模言語モデル【Transformer:基礎理論A-4】

FFNと活性化関数:Transformerの知識を蓄える場所前回は、Multi-Head Attentionの詳細なメカニズムを学びました。今回は、Transformerのもう1つの重要な部品であるFeed Forward Network ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-3】

Multi-Head Attentionの詳細メカニズム:文脈理解の核心前回は、Transformerの全体構造を学びました。今回は、その心臓部であるAttentionメカニズムを詳しく解説します。以前のブログでもTransformerにつ...
基礎理論

大規模言語モデル【Transformer:基礎理論A-1】

言語モデルの本質と進化軌跡:N-gramからTransformerへスマートフォンのキーボードで「私は学校へ」と入力した時、次に出現しそうな単語を予測する機能が働きます。この「次に来そうな単語を予測する能力」こそが、言語モデル(Langua...
LLM

[LLM] 微調整の全手法を整理し、実務での最適解を一気に理解するためのガイド

この記事のゴール本記事では、以下の“判断軸”を最短時間で獲得します。RLHF と DPO のどちらを使うべきか、一発で決められるLoRA を中心とした PEFT の選び方が分かるGPU メモリの制約下で最適な戦略が立てられるbfloat16...
Claude

[Anthropic] Claude3を使ってみてその良さを知る(方向性を暗示するLLMの行方)

Claude3とは?2024年3月4日にAnthropic社によって発表されたClaude3は、Opus、Sonnet、およびHaikuという3つのモデルからなる大規模マルチモーダルAIモデルファミリーです。「大規模マルチモーダルAIモデル...
論文

[論文] エネルギー効率の良いAI : 計算資源を最小限に抑える言語モデルの開発

『The Era of 1-bit LLMs : All Large Language Models are in 1.58 Bits 』を読む論文の概要論文は、BitNet b1.58がどのようにして従来の全精度モデルと同等の性能を、より...
LLM

[LLM] Googleの言語モデル「Gemma」を使ってみる

Gemmaモデルとは?Gemmaの概要Gemmaは、Googleの「Gemini」モデルに用いられた技術を基に開発された、軽量で最先端のオープン言語モデルファミリーです。このモデルは大規模テキストコーパスを用いて自己教師ありの方法で事前トレ...
論文

[論文]Meta 社のTestGen-LLMとは?

TestGen-LLMとは?論文『Automated Unit Test Improvement using Large Language Models at Meta』を読む「Metaでの大規模言語モデルを使用した自動ユニットテスト改善」...