主催: 人工知能学会
会議名: 第105回言語・音声理解と対話処理研究会
回次: 105
開催地: 東京科学大学大岡山キャンパス 蔵前記念会館 くらまえホール
開催日: 2025/11/10 - 2025/11/11
p. 92-93
大規模言語モデル(LLM)搭載エージェントのメタバース応用には、空間認知と身体的行動生成が課題となる。視覚言語モデル(VLM)を用いるアプローチは、高い学習・推論コストが実用上の制約となっている。本取組ではこの制約を回避するため、VLMを介さず、空間・オブジェクトに行為の可能性、すなわちアフォーダンス情報を埋め込むアーキテクチャを採用する。この構造化テキストをLLMへプロンプト入力することで、軽量かつ高速な状況理解とインタラクティブな行動生成を可能にする。本稿では、NPCが対話と行動を統合し、状況に応じて自律的に反応するメタバース「MetaMe」上の実装例を報告する。本取組は、仮想空間における知的キャラクターの振る舞いを豊かにする、低コストでスケーラブルなアプローチを提示するものである。