抄録
従来の音声対話システムは基本的にシステム対一人の使用者という利用形態であり,複数人がお互いに相談しながらシステムと対話するような形態のものはあまり研究されていない.複数人対話の実現のためには,システムに対する発話を認識するだけでなく,人同士での会話であるかどうかなど,「誰が誰に話しているのか」を正確に判断する必要がある.これを実現するには,人物の位置や顔の向きなど視覚的情報が有効であると考えられる.そこで本研究では,対面販売の複数人対話を対象タスクとするような音声対話システムを,Kinectセンサを用いて実現することを試みた.