LLMに基づく対話データに対する評価の自動化に関する検証

久保 祐喜; 山下 智也; 山田 真徳

doi:10.11517/pjsai.JSAI2024.0_4Xin253

第38回 (2024)

セッションID: 4Xin2-53

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_4Xin253

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

LLMに基づく対話データに対する評価の自動化に関する検証

*久保祐喜, 山下智也, 山田真徳

著者情報

キーワード: 対話システム, 評価, 大規模言語モデル

会議録・要旨集フリー

詳細

抄録

対話システムの構築に関する手法は多くある一方で，対話の評価に関する研究は課題が残される．対話の質のような数値化が困難な指標は人手で評価することが主流である．近年は対話データの評価にLLMを用いる手法が提案されている．LLMによる対話の評価は人間に比較的似た推定を行う一方で，十分な相関であるとは言えない．Elo ratingは，2つのデータの比較によってデータの評価を行っているため，評価者によって基準が異なることを考慮する必要がなく，精度が上がることが期待される．しかし，Elo ratingはすべてのケースで有効であるかは確認されていない．特に，正解データでの評価値の分布が偏っている場合などは精度が低下すると考えられる．本研究では，Elo ratingが評価値の分布に依存せずに高い精度で推定できるかを検証する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）