ウィスコンシンカード分類課題における大規模言語モデルの性能とその回答分析

後藤 大毅; 出井 勇人; 塩塚 雄志; 尾形 哲也

doi:10.11517/pjsai.JSAI2025.0_1B5OS41c03

第39回 (2025)

セッションID: 1B5-OS-41c-03

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_1B5OS41c03

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

ウィスコンシンカード分類課題における大規模言語モデルの性能とその回答分析

*後藤大毅, 出井勇人, 塩塚雄志, 尾形哲也

著者情報

キーワード: 大規模言語モデル, 認知的柔軟性, ウィスコンシンカード分類課題, 機械心理学

会議録・要旨集フリー

詳細

抄録

大規模言語モデル（LLM）の性能を測定するために、心理学実験をLLMに適用する研究が存在する。認知的柔軟性に関する実験であるウィスコンシンカード分類課題（WCST）を用いたものもその一つだが、先行研究ではモデル間の回答メカニズムの差異が十分に検討されているとは言えない。本研究では、LLM群（ChatGPT 4o、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、 Gemini 2.0）にWCSTを回答させ、回答傾向の比較・メカニズムの検討を実施した。実験の結果、ChatGPT 4o が50%以上、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、Gemini 2.0 が30%以下の正答率を記録した。一方、WCSTの回答において重要となるルールの推定結果も出力させたところ、ChatGPT 4o mini のみで、出力されたルールと回答との対応が50%以上の確率で一致しなかった。この結果は、WCSTの回答において各モデルが異なる回答メカニズムを有することを示唆する。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）