人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-53
会議情報

LLMに基づく対話データに対する評価の自動化に関する検証
*久保 祐喜山下 智也山田 真徳
著者情報
会議録・要旨集 フリー

詳細
抄録

対話システムの構築に関する手法は多くある一方で,対話の評価に関する研究は課題が残される.対話の質のような数値化が困難な指標は人手で評価することが主流である.近年は対話データの評価にLLMを用いる手法が提案されている.LLMによる対話の評価は人間に比較的似た推定を行う一方で,十分な相関であるとは言えない.Elo ratingは,2つのデータの比較によってデータの評価を行っているため,評価者によって基準が異なることを考慮する必要がなく,精度が上がることが期待される.しかし,Elo ratingはすべてのケースで有効であるかは確認されていない.特に,正解データでの評価値の分布が偏っている場合などは精度が低下すると考えられる.本研究では,Elo ratingが評価値の分布に依存せずに高い精度で推定できるかを検証する.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top