人工知能学会第二種研究会資料
Online ISSN : 2436-5556
マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討
太田 博三
著者情報
研究報告書・技術報告書 フリー

2024 年 2023 巻 SWO-062 号 p. 10-

詳細
抄録

最近のマルチモーダル基盤では,音声・テキスト・画像・音楽を中心としたモーダルで構成されている.アニメのキャラクター生成のように,Text-to-Imageが多く見受けられ,その品質もクリエイターに匹敵しAIクリエイターとして代替しつつある.さらにImage-to-Videoも出てきている.これらはTextを起点としており,社会的に受容されつつある.一方,Image-to-MusicやMusic-to-Imageのモーダル間の試みは少ない.技術的には音声・テキストや画像,音楽などの複数の異なるデータを個別にトークン化し,大規模言語モデル(LLM)として,マルチモーダルの理解と生成を自己回帰的に行うものと捉えられる.ブラックボックス化している原因として,人間の感覚との乖離があり,ナレッジグラフやオントロジーの視点で捉えられるかが重要となっている.本稿では,Image-to-VideoとImage-to-Musicの解釈可能性を考察し,今後の見通しを述べる.

著者関連情報
© (一社)人工知能学会
前の記事 次の記事
feedback
Top