Cross-modal BERT : Self-Attentionによるマルチモーダル情報表現の獲得と相互予測

久良木 優太; 宮澤 和貴; 青木 達哉; 堀井 隆斗; 長井 隆行

doi:10.11517/pjsai.JSAI2020.0_1Q3GS1104

抄録

人間は複数の感覚情報を利用することによって，1つの感覚情報よりも正確で抽象度の高い情報表現を得ることができる．とりわけコミュニケーションにおいてこの情報表現は重要となる．コミュニケーションでは，話し手が自らの感覚器官により観測した情報を言語化して表現する一方で，聞き手は話し手から得た言語情報を自らの感覚器官で得られる情報へと変換することで話し手の言葉を理解する．このように情報は双方向にやり取りされるため，マルチモーダル情報を単方向に予測するだけでは不十分であり，双方向に予測可能でなければならない．本研究ではBERTを用いて物体画像と言語情報を相互に予測可能なモデルを提案する．提案モデルの有用性を検証するためにクロスモーダル情報予測とマルチモーダル情報の分類タスクを行った．結果として，マルチモーダル情報表現を獲得し，物体画像と言語情報に関するクロスモーダル情報予測が可能なことを示した．また，マルチモーダル情報を利用することで，単モダリティのみを利用した場合よりも分類精度が向上することを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）