主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
ロボットが現実世界において有効に活動するには,自律的に行動を計画する機能が不可欠である.そこで,行動がもたらす状態遷移について十分な粒度で推論をする能力が求められる.さらに,人をサポートするシナリオにおいては,ロボットに達成してほしい目標を自然言語で指示できることが望ましい.先行研究では行動計画を生成するシステムを提案した(Arnoldら,2023).しかし,目標条件を画像形式で定義した.ここで,本問題設定に応じて調整したCLIP(Radfordら,2021)モデルを導入し,テキストで目標が指定できるように計画システムを拡張する.具体的には,計画生成において考慮される計画に対して,その計画の実行後の状態を画像形式で予測する.再学習させたCLIPモデルを用いて,予測画像とユーザーにより指定される目標文との類似度を算出する.この類似度を計画検索の検索指標に利用することで,テキストに基づく計画生成を可能にする.本論文ではまず本研究のタスク領域に対してCLIPの性能を評価し,90%以上のTop-5精度を示す.そして統合システムの検証実験を行い,テキストに基づく計画生成が可能になったことを示す.