人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 4J1-GS-6d-05
会議情報

Case Relation Transformerに基づく対象物体及び目標領域の参照表現を含む物体操作指示文生成
*神原 元就杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究の目的は、クロスモーダル言語生成モデルによりデータセットを拡張することである.本論文では,"Move the blue flip-flop to the lower left box"等,画像から物体移動指示文を生成するCase Relation Transformer(CRT)を提案する.既存手法とは異なり,CRTはTransformerを使用して画像特徴量及び幾何的特徴量を統合する.また,CRTはCase Relation Blockの導入により,対象物体及び目標領域を扱うことができる.実験ではベースライン手法との比較実験及び人間による評価を行った. 結果より,CRTがベースライン手法を主要尺度で上回ることが示された.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top