人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 1B5-OS-41c-03
会議情報

ウィスコンシンカード分類課題における大規模言語モデルの性能とその回答分析
*後藤 大毅出井 勇人塩塚 雄志尾形 哲也
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)の性能を測定するために、心理学実験をLLMに適用する研究が存在する。認知的柔軟性に関する実験であるウィスコンシンカード分類課題(WCST)を用いたものもその一つだが、先行研究ではモデル間の回答メカニズムの差異が十分に検討されているとは言えない。本研究では、LLM群(ChatGPT 4o、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、 Gemini 2.0)にWCSTを回答させ、回答傾向の比較・メカニズムの検討を実施した。実験の結果、ChatGPT 4o が50%以上、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、Gemini 2.0 が30%以下の正答率を記録した。一方、WCSTの回答において重要となるルールの推定結果も出力させたところ、ChatGPT 4o mini のみで、出力されたルールと回答との対応が50%以上の確率で一致しなかった。この結果は、WCSTの回答において各モデルが異なる回答メカニズムを有することを示唆する。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top