主催: 人工知能学会
会議名: 第101回言語・音声理解と対話処理研究会
回次: 101
開催地: 名古屋大学 オークマ工作機械工学館 講義室
開催日: 2024/09/09 - 2024/09/10
p. 15-20
本研究ではオンライン会議動画に対して、動画像と音声を用いた話者分離を行う。音声のみの話者分離では、ノイズやオーバーラップが多いオンライン会議動画における話者交代検出の精度の低さが課題である。オンライン会議動画では発話に応じて画面上の話者の映像も切り替わるため、発話区間に対応した話者の顔画像を活用することが可能である。本論文では、発話区間に対して顔検出を一秒ごとに行い、フレーム間の顔画像の類似度に着目し、話者交代検出の改良を試みた。オンライン会議動画199本からなるデータセットに対して評価を行い、平均Diarization Error Rateを29.1%から19.6%に改善することができた。