2024 年 31 巻 3 号 p. 1107-1139
実世界で人間を支援するロボットにとって,身体世界を含む状況の理解は重要な課題である.特に対話のような言語を用いたインタラクションを通じて人間との協業を行おうとする場合,ロボットの 1 人称視点の画像等から得られる情報とインタラクション中の情報における参照関係を適切に紐解かねばならない.本研究ではこうした実世界における,マルチモーダル参照解析タスクを提案し,本タスクのための参照タグ付き実世界対話データセット (J-CRe3) を構築する.本データセットには家庭内における主人とそのお手伝いロボットを想定した2者間の実世界対話動画および音声が含まれる.さらに,対話書き起こしテキスト中のメンションに 1 人称視点動画におけるフレーム内の物体領域が紐付けられている.この紐付けには直接的な参照関係だけでなく,述語と項の関係や橋渡し照応関係も含まれる.既存のテキスト間の照応解析モデルおよび画像のフレーズグラウンディングモデルを組み合わせた実験を行った結果,今回提案するタスクは,テキスト間の解析に比べテキストと物体間の関係解析が非常に困難で挑戦的な課題であることを示した.