人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 1B5-OS-41c-04
会議情報

JDERW:世界モデルを要する推論問題に関する日本語LLMベンチマーク
*尾崎 大晟松下 拓海三浦 剛谷口 尚平松尾 豊
著者情報
会議録・要旨集 フリー

詳細
抄録

近年、大規模言語モデル(LLM)は単純なNext token predictionを超えた能力を示唆していることから、基礎的な世界モデルを獲得している可能性が議論されている。本研究では、世界理解能力を要する演繹的推論ベンチマークデータセットBasic-JDERWを提案する。このデータセットは、物理現象の理解から社会常識、行動計画といった基本的な世界モデルの活用を必要とする103件のQAタスクから構成され、因果推論、時間的推論、空間的推論、抽象概念推論、常識推論、計画推論の6つのカテゴリに分類される。8種類のLLMを用いた評価実験では、各カテゴリにおけるモデルの性能を分析し、既存ベンチマークとの相関関係を検証した。時間的推論や空間的推論などの物理的理解を要するカテゴリでは、特にllama3.3-70B-instructが高い性能を示した。本研究は、LLMの推論能力に垣間見える基礎的な世界理解能力の評価に新たな視点を提供し、言語推論能力と世界理解能力の関係性の解明に一定の寄与があることを期待する。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top