コーパスに基づく確率的言語モデルとして, 従来は主に語彙統語論的なモデルが扱われてきた. 我々は, より高次の言語情報である対話に対する確率的モデルを, コーパスから自動的に生成するための研究を行った. 本研究で用いたコーパスは, ATR対話データベース中の「国際会議参加登録」に関する対話データであり, 各発話文には, 発話者のラベルおよび陳述・命令・約束などの発話行為タイプが付与されている. 本技術資料では, これらのコーパスから, 2種類の方法を用いて, 確率的な対話モデルを生成する. まず初めに, エルゴードHMM (Hidden Markov Model) を用いて, コーパス中の話者ラベルおよび発話行為タイプの系列をモデル化した. 次に, ALERGIAアルゴリズムと呼ばれる, 状態マージング手法に基づいた学習アルゴリズムを用いて, 話者ラベルおよび発話行為タイプの系列をモデル化した. エルゴードHMMの場合には, 確率モデルの学習に先立ち, モデルの状態数をあらかじめ決めておく必要があるが, ALERGIAアルゴリズムでは, 状態の統合化を繰り返すことにより, 最適な状態数を持つモデルを自動的に構成することが可能である. エルゴードHMMあるいはALERGIAアルゴリズムを用いることにより, 話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた. また, 得られた確率的対話モデルを, 情報理論的な観点から評価した.
抄録全体を表示