SQuAD

詳細設計書

大規模言語モデル【事前学習:詳細設計書D-2】GLUE、MMLU、BLEU、ROUGEの完全ガイド

LLM評価の標準ベンチマークを整理し、GLUE、MMLU、SQuAD、BLEU、ROUGEの役割と読み方を解説。スコアの見方と使い分けをまとめます。