Case Relation Transformerに基づく対象物体及び目標領域の参照表現を含む物体操作指示文生成

神原 元就; 杉浦 孔明

doi:10.11517/pjsai.JSAI2021.0_4J1GS6d05

第35回 (2021)

セッションID: 4J1-GS-6d-05

DOI https://doi.org/10.11517/pjsai.JSAI2021.0_4J1GS6d05

会議情報

主催: 一般社団法人人工知能学会

会議名: 2021年度人工知能学会全国大会（第35回）

回次: 35

開催地: オンライン

開催日: 2021/06/08 - 2021/06/11

Case Relation Transformerに基づく対象物体及び目標領域の参照表現を含む物体操作指示文生成

*神原元就, 杉浦孔明

著者情報

キーワード: マルチモーダル, 自然言語生成, 対象物体, 目標領域

会議録・要旨集フリー

詳細

抄録

本研究の目的は、クロスモーダル言語生成モデルによりデータセットを拡張することである．本論文では，"Move the blue flip-flop to the lower left box"等，画像から物体移動指示文を生成するCase Relation Transformer（CRT）を提案する．既存手法とは異なり，CRTはTransformerを使用して画像特徴量及び幾何的特徴量を統合する．また，CRTはCase Relation Blockの導入により，対象物体及び目標領域を扱うことができる．実験ではベースライン手法との比較実験及び人間による評価を行った．結果より，CRTがベースライン手法を主要尺度で上回ることが示された．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）