抄録
現在,電話会話の音声ログを音声によって検索する音声検索の需要が高まりつつある.一方で,音声検索を行う際,会話音声のモデル化が難しく,テキスト化できなければ検索ができないという問題があり,その解決手段として認識対象以外の発話を許容できるワードスポッティングが有望である.
しかし,ワードスポッティングはノイズ等の影響を受けやすいため,認識精度が不十分であり実用に至っていないという現状にある.
本研究は,そのような問題を解決するため,キーワード音声と検索対象会話音声との距離マトリクス画像中から直線検出することでワードスポッティングを行う手法を考案し,その手法で従来法に対する優位性を示すものである.