主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
大規模言語モデル(LLM)の性能を測定するために、心理学実験をLLMに適用する研究が存在する。認知的柔軟性に関する実験であるウィスコンシンカード分類課題(WCST)を用いたものもその一つだが、先行研究ではモデル間の回答メカニズムの差異が十分に検討されているとは言えない。本研究では、LLM群(ChatGPT 4o、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、 Gemini 2.0)にWCSTを回答させ、回答傾向の比較・メカニズムの検討を実施した。実験の結果、ChatGPT 4o が50%以上、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、Gemini 2.0 が30%以下の正答率を記録した。一方、WCSTの回答において重要となるルールの推定結果も出力させたところ、ChatGPT 4o mini のみで、出力されたルールと回答との対応が50%以上の確率で一致しなかった。この結果は、WCSTの回答において各モデルが異なる回答メカニズムを有することを示唆する。