GLUE

詳細設計書

LLM【事前学習:詳細設計書D-2】

LLM評価の標準ベンチマークを整理し、GLUE、MMLU、SQuAD、BLEU、ROUGEの役割と読み方を解説。スコアの見方と使い分けをまとめます。
詳細設計書

LLM【事前学習:詳細設計書D-1】

LLM評価は単一指標では足りません。タスク固有の精度だけで満足して実務で失敗しないために、基盤・汎化・信頼性の3層で段階的に評価する方法を解説します。