JDERW：世界モデルを要する推論問題に関する日本語LLMベンチマーク

尾崎 大晟; 松下 拓海; 三浦 剛; 谷口 尚平; 松尾 豊

doi:10.11517/pjsai.JSAI2025.0_1B5OS41c04

抄録

近年、大規模言語モデル（LLM）は単純なNext token predictionを超えた能力を示唆していることから、基礎的な世界モデルを獲得している可能性が議論されている。本研究では、世界理解能力を要する演繹的推論ベンチマークデータセットBasic-JDERWを提案する。このデータセットは、物理現象の理解から社会常識、行動計画といった基本的な世界モデルの活用を必要とする103件のQAタスクから構成され、因果推論、時間的推論、空間的推論、抽象概念推論、常識推論、計画推論の6つのカテゴリに分類される。8種類のLLMを用いた評価実験では、各カテゴリにおけるモデルの性能を分析し、既存ベンチマークとの相関関係を検証した。時間的推論や空間的推論などの物理的理解を要するカテゴリでは、特にllama3.3-70B-instructが高い性能を示した。本研究は、LLMの推論能力に垣間見える基礎的な世界理解能力の評価に新たな視点を提供し、言語推論能力と世界理解能力の関係性の解明に一定の寄与があることを期待する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）