主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
近年、大規模言語モデル(LLM)は単純なNext token predictionを超えた能力を示唆していることから、基礎的な世界モデルを獲得している可能性が議論されている。本研究では、世界理解能力を要する演繹的推論ベンチマークデータセットBasic-JDERWを提案する。このデータセットは、物理現象の理解から社会常識、行動計画といった基本的な世界モデルの活用を必要とする103件のQAタスクから構成され、因果推論、時間的推論、空間的推論、抽象概念推論、常識推論、計画推論の6つのカテゴリに分類される。8種類のLLMを用いた評価実験では、各カテゴリにおけるモデルの性能を分析し、既存ベンチマークとの相関関係を検証した。時間的推論や空間的推論などの物理的理解を要するカテゴリでは、特にllama3.3-70B-instructが高い性能を示した。本研究は、LLMの推論能力に垣間見える基礎的な世界理解能力の評価に新たな視点を提供し、言語推論能力と世界理解能力の関係性の解明に一定の寄与があることを期待する。