人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2I6-OS-4a-03
会議情報

マルチモーダル言語処理に基づくFetch-and-Carryタスクの自動化と実行
*神原 元就杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

本論文では,Fetch-and-Carryタスクについての自由形式な自然言語指示文が与えられたうえで,ロボットが指示を実行する,Fetch-and-Carry with Object Grounding (FCOG)タスクを扱う.FCOGタスクにおける既存手法では,指示文が自由形式である場合多様な参照表現を適切に理解することが難しかった.また,既存フレームワークでは,固定されたタスクのみで評価を行っていた.本研究では,FCOGタスクに対して,4つのサブタスクに分割し解決するアプローチを提案すると共に,マルチモーダル言語理解モデルにおいて,言語特徴量および画像特徴量を適切にモデリングするためのMultimodal Parallel Feature Extractorを導入する.また,自由形式な自然言語指示文のクロスモーダル言語生成を含む,生成,実行,及び評価についての完全自動化のためのフレームワークを提案する.実験結果より,提案手法における言語理解モジュールは参照表現理解タスクにおいて既存手法を上回る精度であった.また,提案手法は,FCOGタスクにおけるタスク成功率で既存手法を上回った.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top