大規模言語モデルを用いた質問応答文の自動評価とプロンプトインジェクションへの対処

近藤 拓未; 竹内 孝; 李 吉屹; 齊藤 秀; 鹿島 久嗣

doi:10.11517/pjsai.JSAI2024.0_2G4GS601

第38回 (2024)

セッションID: 2G4-GS-6-01

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_2G4GS601

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

大規模言語モデルを用いた質問応答文の自動評価とプロンプトインジェクションへの対処

*近藤拓未, 竹内孝, 李吉屹, 齊藤秀, 鹿島久嗣

著者情報

キーワード: 質問応答, 意味理解, 自動評価, 大規模言語モデル

会議録・要旨集フリー

詳細

抄録

自然言語処理における質問応答の多くは，質問のドメインにかかわらず，応答テキストと事前に用意された正解テキストとの完全一致または部分一致によって評価される．しかし，質問の対象を限定しないオープンドメインな質問応答を評価する場合，同義な表現や表記揺れなどがあるためにテキストマッチングでは正確な評価ができないことが問題となる．これに対し，既存の研究では大規模言語モデル(LLM)に評価を行わせる自動評価が提案されているが，自動評価の脆弱性については議論が及んでいない．本研究では，これらの問題を解決するため，LLMを用いた自動評価の新しい枠組みを提案し，その性能や頑健性について議論を行う．実験により，LLMの自動評価が人間の評価と90%以上一致し，さらに評価システムへの攻撃に対して頑健であることが示された．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）