主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
雑談では発話に対して多様な内容・表現の応答が可能であるが,実会話データを利用した雑談対話システムの評価では,利用できる参照応答は基本的に一応答のみであるため,応答の多様性を考慮した評価を行うことが困難である. この問題を解消する半自動評価手法ΔBLEUでは,大規模対話データの利用して拡張した参照応答に,応答としての妥当性を人手で付与した妥当性付き拡張参照応答を用いて評価を行う. しかし,人手による妥当性評価をオープンドメインな雑談応答生成タスクでの評価に足るだけの大規模評価データに対して行うことは現実的でない. そこで本研究では,応答の意味的多様性を考慮するために参照応答の拡張方法を改良し,さらに複数応答を持つ発話から学習された分類器によって拡張参照応答に対する妥当性付与を自動で行うことで,既存手法ΔBLEUを自動化したΔBLEU-autoを提案する. 実験では複数の雑談対話システムに対する人手評価との相関により,提案手法の有効性を確認した. また提案手法を既存の自動評価手法と組み合わせることで,自動評価手法として高い相関が得られることを確認した.