人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3Win5-99
会議情報

拡散モデルを用いたAttention機構と潜在空間での最適化を活用した音声編集
*大矢 友貴西村 康孝多屋 優人
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,事前学習済みの拡散モデルを用いたゼロショットの編集手法がコンピュータビジョン分野で注目を集めており,音声編集への応用に対する関心も高まっている.従来の音声編集手法は,拡散モデルのクロスアテンションマップを活用しているが,多様なプロンプトに適応することができず,実際のシーンにおける信頼性が低下している.本研究では,拡散モデルのアテンション機構を用いて潜在空間レベルで操作する新しい音声編集フレームワークを提案する.本手法はクロスアテンションの操作を通じて編集を調整し,編集指示と中間の編集された音声との類似性を最適化することで,精密な整合性を確保する.複数の音声データに対して提案手法と従来手法との比較評価を行った結果,本フレームワークは高い編集精度を達成し,元の音声構造を保持する音声の一貫性を維持する点で従来手法を上回ることが示された.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top