オンライン会議動画に対する顔の類似度の時間変化を用いた話者分離手法

髙瀬 悠太; 春日 宥一郎; 大野 正樹; 橋本 泰一

doi:10.11517/jsaislud.101.0_15

抄録

本研究ではオンライン会議動画に対して、動画像と音声を用いた話者分離を行う。音声のみの話者分離では、ノイズやオーバーラップが多いオンライン会議動画における話者交代検出の精度の低さが課題である。オンライン会議動画では発話に応じて画面上の話者の映像も切り替わるため、発話区間に対応した話者の顔画像を活用することが可能である。本論文では、発話区間に対して顔検出を一秒ごとに行い、フレーム間の顔画像の類似度に着目し、話者交代検出の改良を試みた。オンライン会議動画199本からなるデータセットに対して評価を行い、平均Diarization Error Rateを29.1%から19.6%に改善することができた。

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）