抄録
近年、テレビ電話やビデオ会議等の音声付き動画の撮影が一般家庭にも普及してきた。しかし、周囲の雑音が発生する一般の環境では、品質良く収音できない場合がある。雑音抑圧の従来研究として画像情報を用いて音源方向の推定をし、MV法により雑音抑圧を行う手法がある。画像情報を用いることで雑音が大きな環境下でも音源方向を正しく取得することができ、雑音抑圧の性能が改善する。本報では、この手法に人間の骨格検出を用いることで、複数話者存在する環境でも目的音源である話者を決定し、雑音抑圧を行う方法を提案する。実験では二人の話者から一人を決定し、雑音抑圧を行い、画像情報を用いない方法との比較を行った。