日本ロボット学会誌
Online ISSN : 1884-7145
Print ISSN : 0289-1824
ISSN-L : 0289-1824
論文
テキストと口唇動画像データによるマルチモーダル音声合成器の性能評価
松浦 篤史清水 創太
著者情報
ジャーナル フリー

2025 年 43 巻 9 号 p. 919-922

詳細
抄録

This paper proposes a speech synthesis model from multimodal information, i.e., text and lip movements, in order to generate more natural speeches including voiced and unvoiced sections. Its architecture consists of an image feature extractor using an auto-encoder and an encoder-decoder model that outputs a mel-spectrogram. Speech synthesis reflecting the lip movements to the text was successfully achieved. 3 types of combinations between text and lip movements were compared and evaluated.

著者関連情報
© 2018 日本ロボット学会
前の記事 次の記事
feedback
Top