AI・データサイエンス論文集
Online ISSN : 2435-9262
LLM-as-a-judgeの統計的検証手法の検討
川村 純菅田 大輔箱石 健太
著者情報
ジャーナル オープンアクセス

2025 年 6 巻 3 号 p. 406-419

詳細
抄録

建設土木分野の実務段階では,生成AIが特定の資料に基づいて質問回答を行うRAG(Retrieval-Augmented Generation)の試行・導入が進められており,RAGの評価方法の確立が求められている.今日では,省力的な評価方法として,RAGの回答を生成AIに評価させるLLM-as-a-judgeが注目されており,人手評価との比較を通してこれを検証する試みが行われてきた.しかし,人手評価は再現性が乏しいため,LLM-as-a-judgeの検証が難しいという問題がある.そこで本研究では,LLM-as-a-judgeの評価能力を,仮説検定における信頼水準と検出力として表現し検証する手法を検討した.これにより,人手評価との比較を行わず,LLM-as-a-judgeを統計的に検証することが可能となった.

著者関連情報
© 2025 公益社団法人 土木学会
前の記事 次の記事
feedback
Top