抄録
雑音を含んだ音声を画像に変換し,完全畳み込みネットワークの一つ U-Net を用いて雑音を除去する方法が提案されている.筆者らは既にこの手法を用いて,人の音声に加え各種雑音に対する除去実験を行っている.いずれの実験においても,良好な結果が得られた.本検討では,会議中に特定人物の音声を強調し,記録を残すことを想定した.または,緊急アナウンスの発話者の音声や避難時の誘導員の音声を強調し,文字に変換することで耳の聞こえない人に伝えることも想定した.複数の学習のためのデータセットを作成し,複数人(6 人まで)の音声から特定話者の音声に対する音声強調モデルを作成した.そして,音声を再生することにより,混合音声データ中の特定人物の強調発話が可能であることを確認した.