実装と検証 LLM【スケール則:実装と検証B-2】 スケール則における評価指標依存性を詳解。Training Loss、Perplexity、Task-Specific Accuracyなど複数の評価指標でPower Law指数がどのように異なるかを実装と共に学びます。 2026.06.11 実装と検証
詳細設計書 LLM【事前学習:詳細設計書D-3】 LLM評価で見落としやすいデータ汚染とドメイン横断性能を整理。汚染検出の方法、In-domain / Out-of-domain の見方、評価条件の固定手順まで解説します。 2026.04.15 詳細設計書
詳細設計書 LLM【事前学習:詳細設計書D-2】 LLM評価の標準ベンチマークを整理し、GLUE、MMLU、SQuAD、BLEU、ROUGEの役割と読み方を解説。スコアの見方と使い分けをまとめます。 2026.04.12 詳細設計書