人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
95回 (2022/9)
会議情報

非会話文を用いたデータ拡張による雑談対話システムの多様性向上
田中 陸斗高木 友博
著者情報
会議録・要旨集 フリー

p. 47-52

詳細
抄録

深層学習を利用した対話システム構築において対話データの質と量は重要である.しかし,日本語の対話コーパスは大規模なものが公開されておらず,限られたデータしかないといった問題がある.また,コーパスを用いてend-to-endに学習したモデルはありきたりで短い応答をすることが多く,生成文の多様性が少ないといった問題もある.これらの問題を克服するために,本研究では非会話文を活用して対話データを増やすことで対話モデルの多様性の向上を試みる.ここで言う非会話文とは,web上の文章や小説の台詞などの対話の形式として整えられていない文のことであり,対話データと比較して収集が容易である.逆翻訳とサンプリング生成を用いて非会話文から対話データを増やし,不適切な対話を除去するためのフィルタを通すことでより質の高いデータを獲得する.増やしたデータを加えて対話モデルを学習させた結果,生成文の多様性の向上が見られた.

著者関連情報
© 2022(一社)人工知能学会
前の記事 次の記事
feedback
Top