日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識

河原塚 健人; 大日方 慶樹; 金沢 直晃; 岡田 慧; 稲葉 雅幸

doi:10.11517/pjsai.JSAI2023.0_3G1OS24a04

抄録

日常生活支援を行うロボットには, 物体や環境の多様な状態認識が必要である. 大抵の場合, これらはポイントクラウドの処理やアノテーションデータに基づく機械学習, 専用のセンサを使って行われる. これに対して本研究では, 大規模なデータセットから学習された視覚-言語モデルにおけるVisual Question Answering (VQA)を応用した状態認識を行う. VQAを用いることで, 言語による直感的な状態認識記述が可能である. 一方, 同じ認識すべき状態についても, 言語による質問形式は様々な方法考えられ, その質問ごとに状態認識の性能は異なる. そこで本研究では, VQAを用いた状態認識の性能を向上させるため, 遺伝的アルゴリズムによる適切な質問文の組み合わせの探索を行う. これにより, 冷蔵庫ドアの開閉やディスプレイのオンオフだけでなく, 認識の難しい透明なドアの開閉や水の状態認識が, 高い精度で実現でき, ロボットの多様な認識行動が可能となることを示す.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）