主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
人間のような知能を人工的に実現するためには,ロボットに搭載されている様々なセンサから得られるマルチモーダル情報から,ロボットが環境を理解するためのモデルが必要である.そこで,我々はロボットがマルチモーダル情報を分類することで語意や概念を獲得するモデルを提案してきた.これらのモデルは,MLDAを基盤に各モダリティ情報の特徴量の関係を教師なしで学習している.しかし,特徴抽出に教師ありで学習されたCNNを用いていた.さらに,不可逆な特徴抽出を行っていたため観測そのものの生成ができなかった.本稿では,VAEを拡張し潜在変数が多項分布にしたがうMultinomial VAE(MNVAE)を提案し,MNVAEとMLDAを統合したモデルを構築することで,ロボットから得た画像と単語のマルチモーダル情報の分類を行う.MNVAEとMLDAの相互作用によって分類に適した潜在空間が学習され,単語から画像が生成可能であることを示す.