Claude3 [Anthropic] Claude3を使ってみてその良さを知る(方向性を暗示するLLMの行方) Claude3とは? 2024年3月4日にAnthropic社によって発表されたClaude3は、Opus、Sonnet、およびHaikuという3つのモデルからなる大規模マルチモーダルAIモデルファミリーです。 「大規模マルチモーダルAIモ... 2024.03.11 Claude3LLM
論文 [論文] エネルギー効率の良いAI : 計算資源を最小限に抑える言語モデルの開発 『The Era of 1-bit LLMs : All Large Language Models are in 1.58 Bits 』を読む 論文の概要 論文は、BitNet b1.58がどのようにして従来の全精度モデルと同等の性能を、... 2024.03.01 論文
LLM [LLM] Googleの言語モデル「Gemma」を使ってみる Gemmaモデルとは? Gemmaの概要 Gemmaは、Googleの「Gemini」モデルに用いられた技術を基に開発された、軽量で最先端のオープン言語モデルファミリーです。 このモデルは大規模テキストコーパスを用いて自己教師ありの方法で事... 2024.02.23 LLM
論文 [論文]Meta 社のTestGen-LLMとは? TestGen-LLMとは? 論文『Automated Unit Test Improvement using Large Language Models at Meta』を読む 「Metaでの大規模言語モデルを使用した自動ユニットテスト改... 2024.02.21 論文
論文 [論文]『WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION』 論文の内容 この研究について 『WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION』の論文では、長いビデオと言語のシーケンスを訓練する際の課題に対処するため... 2024.02.16 論文
論文 [論文] 『Ring Attention with Blockwise Transformers』の論文を読む Ring Attentionとは? 『Ring Attention with Blockwise Transformers』は、AIモデルで長いシーケンスを効率的に処理するために、ブロック単位のAttention機構とフィードフォワード操作... 2024.02.15 論文