テキスト・音声・動画生成を活用した低コストでスケーラブルなリアルタイム音声対話

沢田 慶; 藤田 達也; 三井 健太郎; 法野 行哉; 若月 駿尭; 石川 翔; オーカール ターレック; 陳 心琪

doi:10.11517/jsaislud.102.0_157

抄録

本デモでは、テキスト・音声・動画生成技術を活用した、低コストかつスケーラブルなリアルタイム音声対話システムを紹介する。本システムのテキスト生成には、パラメータ数が少ない大規模言語モデルを使用し、事後学習や推論コストを低減しながら、検索拡張生成にも対応して知識データベースを活用する。音声・動画生成については、スマートフォンで撮影した6分程度の動画から音声と動画アバターのAIモデルが学習でき、リアルタイムストリーミングを通じた動画再生により音声対話の応答を実現する。生成プロセスは比較的安価なサーバで処理でき、クライアントからの要求が多い場合には容易にスケール可能である。このように本システムは、データ作成コストや計算リソースを最小限に抑えつつ、効果的かつ魅力的な音声対話体験の提供を目指して設計されており、さまざまな場面での活用が期待される。

著者関連情報

お気に入り & アラート

閲覧履歴

Trends in the Incidence of Sudden Deaths and Heart Diseases in Fukushima After the Great East Japan Earthquake

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）