MMLU

詳細設計書

大規模言語モデル【事前学習:詳細設計書D-1】ベンチマークだけでは見えない「本当の使い勝手」

# LLM評価の3層構造:ベンチマークだけでは見えない「本当の使い勝手」LLMを開発したのに、本当に「使えるモデル」かどうか判断しきれない。そんな相談は少なくありません。ベンチマークでは 90% を超えているのに、実務で使うと想定外の失敗が...