主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
生活支援ロボットの社会実装は,高齢社会の労働力不足やQoL向上等の社会問題に対する重要な解決策である。日常生活でのロボット活用には,ユーザがいつでもどこでも簡単にロボットを操作できる遠隔操作システムが必要不可欠である。操作者にとって直感的な操作方法の一つに,画面上の任意の位置に自由に指示を描くことができる手書き入力がある。しかし,手書き線でロボットを操作するためには,その線の意味情報を汲み取り,ロボットへの指令に変換する必要がある。本稿では,近年発展著しいVision-Language Model(VLM)を用いて,手書き線で与えられた指示を推論する手法を提案する。提案手法において、VLMはタスクAPI,制約,出力例を含む事前情報と,手書き線を上書きした観測画像を受け取り、ローレベルタスクのコード配列を出力する。また,生成コードに手書き線のピクセル情報を引数として提供し,言語では難しい曖昧な位置,経路の指定を含めた遠隔操作を実現する。提案手法を用いて複数タスクで高い成功率を示す。また、10名のユーザ実験で従来の音声遠隔操作との比較を行い,提案手法の高いユーザビリティを示す。