主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
本研究の目的は、クロスモーダル言語生成モデルによりデータセットを拡張することである.本論文では,"Move the blue flip-flop to the lower left box"等,画像から物体移動指示文を生成するCase Relation Transformer(CRT)を提案する.既存手法とは異なり,CRTはTransformerを使用して画像特徴量及び幾何的特徴量を統合する.また,CRTはCase Relation Blockの導入により,対象物体及び目標領域を扱うことができる.実験ではベースライン手法との比較実験及び人間による評価を行った. 結果より,CRTがベースライン手法を主要尺度で上回ることが示された.