マルチモーダルデータから共通・個別潜在表現を抽出する深層生成モデル

楠本 海斗; 村田 真悟

doi:10.11517/pjsai.JSAI2022.0_2M1OS19a03

抄録

画像や音声といった非時系列・時系列のマルチモーダルデータから潜在表現の抽出や生成に関する学習が出来れば，モダリティ間に共通する構造の理解やモダリティ間の変換が可能になる．本研究は特に，深層生成モデルを用いたマルチモーダルデータの潜在表現抽出に関する方法論の確立を目指す．特定モダリティのデータは低次元の潜在表現を有すると考えられるが，別のモダリティとその表現全てを共有可能であるとは限らない．そこで本研究では，モダリティ間に共通・個別の潜在表現が存在すると仮定し，それらを分離抽出可能なマルチモーダル深層生成モデルの構築及び人工データを用いた評価実験を実施した． 2種類のモダリティを想定し，評価実験のデータとして，アルファベット文字の背景色を変化させた背景色付き画像（非時系列データ）と，文字の軌跡の速度を変化させた速度変更ストローク（時系列データ）のペアを用意した．学習後の各潜在空間を可視化したところ，両モダリティ間の共通表現として文字ラベルが，個別表現としてそれぞれ，背景色情報と速度情報が分離抽出されていることを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）