2025 年 6 巻 3 号 p. 406-419
建設土木分野の実務段階では,生成AIが特定の資料に基づいて質問回答を行うRAG(Retrieval-Augmented Generation)の試行・導入が進められており,RAGの評価方法の確立が求められている.今日では,省力的な評価方法として,RAGの回答を生成AIに評価させるLLM-as-a-judgeが注目されており,人手評価との比較を通してこれを検証する試みが行われてきた.しかし,人手評価は再現性が乏しいため,LLM-as-a-judgeの検証が難しいという問題がある.そこで本研究では,LLM-as-a-judgeの評価能力を,仮説検定における信頼水準と検出力として表現し検証する手法を検討した.これにより,人手評価との比較を行わず,LLM-as-a-judgeを統計的に検証することが可能となった.