画像電子学会研究会講演予稿
Online ISSN : 2758-9218
Print ISSN : 0285-3957
画像電子学会第303回研究会講演予稿
セッションID: 22-03-14
会議情報

画像変換データと U-Net を用いた多話者環境から特定話者の音声強調の検討
*リン ケン渡邉 大河橋爪 裕貴長谷川 啓介宮崎 剛田中 博
著者情報
会議録・要旨集 認証あり

詳細
抄録
雑音を含んだ音声を画像に変換し,完全畳み込みネットワークの一つ U-Net を用いて雑音を除去する方法が提案されている.筆者らは既にこの手法を用いて,人の音声に加え各種雑音に対する除去実験を行っている.いずれの実験においても,良好な結果が得られた.本検討では,会議中に特定人物の音声を強調し,記録を残すことを想定した.または,緊急アナウンスの発話者の音声や避難時の誘導員の音声を強調し,文字に変換することで耳の聞こえない人に伝えることも想定した.複数の学習のためのデータセットを作成し,複数人(6 人まで)の音声から特定話者の音声に対する音声強調モデルを作成した.そして,音声を再生することにより,混合音声データ中の特定人物の強調発話が可能であることを確認した.
著者関連情報
© 2023 一般社団法人 画像電子学会
前の記事 次の記事
feedback
Top