人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
101回 (2024/9)
会議情報

オンライン会議動画に対する顔の類似度の時間変化を用いた話者分離手法
髙瀬 悠太春日 宥一郎大野 正樹橋本 泰一
著者情報
会議録・要旨集 認証あり

p. 15-20

詳細
抄録

本研究ではオンライン会議動画に対して、動画像と音声を用いた話者分離を行う。音声のみの話者分離では、ノイズやオーバーラップが多いオンライン会議動画における話者交代検出の精度の低さが課題である。オンライン会議動画では発話に応じて画面上の話者の映像も切り替わるため、発話区間に対応した話者の顔画像を活用することが可能である。本論文では、発話区間に対して顔検出を一秒ごとに行い、フレーム間の顔画像の類似度に着目し、話者交代検出の改良を試みた。オンライン会議動画199本からなるデータセットに対して評価を行い、平均Diarization Error Rateを29.1%から19.6%に改善することができた。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top