画像変換データと U-Net を用いた多話者環境から特定話者の音声強調の検討

リン ケン; 渡邉 大河; 橋爪 裕貴; 長谷川 啓介; 宮崎 剛; 田中 博

doi:10.11371/wiieej.22.03.0_78

画像電子学会第303回研究会講演予稿

セッションID: 22-03-14

DOI https://doi.org/10.11371/wiieej.22.03.0_78

会議情報

主催: 一般社団法人画像電子学会

会議名: 画像電子学会第303回研究会講演予稿

回次: 303

開催地: ハイブリッド（広島大学東千田キャンパス未来創生センター）

開催日: 2023/02/21 - 2023/02/22

画像変換データと U-Net を用いた多話者環境から特定話者の音声強調の検討

*リンケン, 渡邉大河, 橋爪裕貴, 長谷川啓介, 宮崎剛, 田中博

著者情報

キーワード: スペクトログラム, 音声強調, U-Net

会議録・要旨集認証あり

詳細

抄録

雑音を含んだ音声を画像に変換し，完全畳み込みネットワークの一つ U-Net を用いて雑音を除去する方法が提案されている．筆者らは既にこの手法を用いて，人の音声に加え各種雑音に対する除去実験を行っている．いずれの実験においても，良好な結果が得られた．本検討では，会議中に特定人物の音声を強調し，記録を残すことを想定した．または，緊急アナウンスの発話者の音声や避難時の誘導員の音声を強調し，文字に変換することで耳の聞こえない人に伝えることも想定した．複数の学習のためのデータセットを作成し，複数人(6 人まで)の音声から特定話者の音声に対する音声強調モデルを作成した．そして，音声を再生することにより，混合音声データ中の特定人物の強調発話が可能であることを確認した．

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）