主催: 人工知能学会
会議名: 第93回 言語・音声理解と対話処理研究会
回次: 93
開催地: オンライン
開催日: 2021/11/29 - 2021/11/30
p. 62-67
ユーザ発話内容の解析に偏重することなく,システム発話の列をコントロールするだけで,聞き役の対話システムを実現することを目指している.我々は以前,システム発話の整合性を重視した発話選択を,Q学習を用いて実装した.さらにより多くの状態を考慮可能な強化学習を実装するために深層強化学習(DQN)を用いる.本稿では,以前実装したQ学習と同等の発話選択の実現を今回の目標として,深層強化学習を設計したので報告する.まず,Q学習で用いていた状態をone-hotベクトルを用いて入力表現とした.次に報酬として,これまで用いていたものを正規化して与えた. 評価としては,テキスト対話を行い,システム発話の破綻数を以前の手法と比較することで,同等の性能が再現できているかを調べた. 加えて,十分に学習できるまでのエピソード数の比較を行った.