自動拡張した参照応答に基づく雑談対話システムの自動評価

蔦 侑磨; 吉永 直樹; 豊田 正史

doi:10.11517/pjsai.JSAI2020.0_4Rin136

抄録

雑談では発話に対して多様な内容・表現の応答が可能であるが，実会話データを利用した雑談対話システムの評価では，利用できる参照応答は基本的に一応答のみであるため，応答の多様性を考慮した評価を行うことが困難である．この問題を解消する半自動評価手法ΔBLEUでは，大規模対話データの利用して拡張した参照応答に，応答としての妥当性を人手で付与した妥当性付き拡張参照応答を用いて評価を行う．しかし，人手による妥当性評価をオープンドメインな雑談応答生成タスクでの評価に足るだけの大規模評価データに対して行うことは現実的でない．そこで本研究では，応答の意味的多様性を考慮するために参照応答の拡張方法を改良し，さらに複数応答を持つ発話から学習された分類器によって拡張参照応答に対する妥当性付与を自動で行うことで，既存手法ΔBLEUを自動化したΔBLEU-autoを提案する．実験では複数の雑談対話システムに対する人手評価との相関により，提案手法の有効性を確認した．また提案手法を既存の自動評価手法と組み合わせることで，自動評価手法として高い相関が得られることを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）