LLM-as-a-judgeの統計的検証手法の検討

川村 純; 菅田 大輔; 箱石 健太

doi:10.11532/jsceiii.6.3_406

抄録

建設土木分野の実務段階では，生成AIが特定の資料に基づいて質問回答を行うRAG（Retrieval-Augmented Generation）の試行・導入が進められており，RAGの評価方法の確立が求められている．今日では，省力的な評価方法として，RAGの回答を生成AIに評価させるLLM-as-a-judgeが注目されており，人手評価との比較を通してこれを検証する試みが行われてきた．しかし，人手評価は再現性が乏しいため，LLM-as-a-judgeの検証が難しいという問題がある．そこで本研究では，LLM-as-a-judgeの評価能力を，仮説検定における信頼水準と検出力として表現し検証する手法を検討した．これにより，人手評価との比較を行わず，LLM-as-a-judgeを統計的に検証することが可能となった．

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

The Basic Characteristics on Dynamic Strength of Valve Spring
HANSHIN Advanced Support System for Ship Administration - Changes Brought by Progress in Navigation Supporting Technology
Surgical Strategies for Giant Pituitary Adenomas to Minimize Postoperative Hematoma Formation
Experiment on Digital Video Recording Using 1/2-inch Metal Particle Tape
New Acyclic Bis-phenylpropanoids from the Aril of Myristica fragrans

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）