混ざった声を聞き分ける最新技術：音源分離と目的音声抽出

中谷 智広; 池下 林太郎; デルクロア マーク; 落合 翼; 加茂 直之; 荒木 章子

doi:10.1587/essfr.18.4_267

EA研究会提案

混ざった声を聞き分ける最新技術：音源分離と目的音声抽出

中谷智広, 池下林太郎, デルクロアマーク, 落合翼, 加茂直之, 荒木章子

著者情報

キーワード: 音源分離, 目的音声抽出, 音声強調, ニューラルネットワーク, 統計的信号処理

ジャーナルフリー

2025 年 18 巻 4 号 p. 267-278

DOI https://doi.org/10.1587/essfr.18.4_267

詳細

抄録

複数の音声やそのほかの音が混ざって収録された音響信号から，個々の音を分離して抽出する音源分離，及び特定の話者の音声のみを抽出する目的音声抽出について，最新の技術動向を解説する．これらの技術は，人にとって音声をより聞き取りやすくするだけでなく，後段の音声アプリケーションの性能向上にも寄与する．二つの重要なアプローチとして，信号のモデルに基づく方法とニューラルネットワークに基づく方法をとりあげる．各アプローチの概要と特徴を述べ，代表的な技術として，残響環境下でのブラインド音源分離と声の特徴に基づく目的音声抽出について詳しく紹介する．最後に，この技術分野の今後の展望についても触れる．

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）