主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
本論文では,Fetch-and-Carryタスクについての自由形式な自然言語指示文が与えられたうえで,ロボットが指示を実行する,Fetch-and-Carry with Object Grounding (FCOG)タスクを扱う.FCOGタスクにおける既存手法では,指示文が自由形式である場合多様な参照表現を適切に理解することが難しかった.また,既存フレームワークでは,固定されたタスクのみで評価を行っていた.本研究では,FCOGタスクに対して,4つのサブタスクに分割し解決するアプローチを提案すると共に,マルチモーダル言語理解モデルにおいて,言語特徴量および画像特徴量を適切にモデリングするためのMultimodal Parallel Feature Extractorを導入する.また,自由形式な自然言語指示文のクロスモーダル言語生成を含む,生成,実行,及び評価についての完全自動化のためのフレームワークを提案する.実験結果より,提案手法における言語理解モジュールは参照表現理解タスクにおいて既存手法を上回る精度であった.また,提案手法は,FCOGタスクにおけるタスク成功率で既存手法を上回った.