主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
自然言語処理における質問応答の多くは,質問のドメインにかかわらず,応答テキストと事前に用意された正解テキストとの完全一致または部分一致によって評価される.しかし,質問の対象を限定しないオープンドメインな質問応答を評価する場合,同義な表現や表記揺れなどがあるためにテキストマッチングでは正確な評価ができないことが問題となる.これに対し,既存の研究では大規模言語モデル(LLM)に評価を行わせる自動評価が提案されているが,自動評価の脆弱性については議論が及んでいない.本研究では,これらの問題を解決するため,LLMを用いた自動評価の新しい枠組みを提案し,その性能や頑健性について議論を行う.実験により,LLMの自動評価が人間の評価と90%以上一致し,さらに評価システムへの攻撃に対して頑健であることが示された.