マルチモーダル言語処理に基づくFetch-and-Carryタスクの自動化と実行

神原 元就; 杉浦 孔明

doi:10.11517/pjsai.JSAI2023.0_2I6OS4a03

抄録

本論文では，Fetch-and-Carryタスクについての自由形式な自然言語指示文が与えられたうえで，ロボットが指示を実行する，Fetch-and-Carry with Object Grounding (FCOG)タスクを扱う．FCOGタスクにおける既存手法では，指示文が自由形式である場合多様な参照表現を適切に理解することが難しかった．また，既存フレームワークでは，固定されたタスクのみで評価を行っていた．本研究では，FCOGタスクに対して，4つのサブタスクに分割し解決するアプローチを提案すると共に，マルチモーダル言語理解モデルにおいて，言語特徴量および画像特徴量を適切にモデリングするためのMultimodal Parallel Feature Extractorを導入する．また，自由形式な自然言語指示文のクロスモーダル言語生成を含む，生成，実行，及び評価についての完全自動化のためのフレームワークを提案する．実験結果より，提案手法における言語理解モジュールは参照表現理解タスクにおいて既存手法を上回る精度であった．また，提案手法は，FCOGタスクにおけるタスク成功率で既存手法を上回った．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）