メンタルヘルス・マネジメント（R）検定試験に対するChatGPT（GPT-4）のパフォーマンス：要因計画法を用いた検討

渡辺 和広; 筒井 保博; 筒井 隆夫; 山内 武紀; 内田 満夫; 八谷 百合子; 金 一成; 飯田 真子; 今村 幸太郎; 櫻谷 あすか; 川上 憲人

doi:10.1539/sangyoeisei.2024-017-B

抄録

目的：本研究では，職場のメンタルヘルスに関する専門知識を問う試験問題として，大阪商工会議所・施行商工会議所が主催するメンタルヘルス・マネジメント（R）検定試験を採用し，GPT-4のパフォーマンスを検討することを目的とした．また，モデルに入力するプロンプトに工夫を加えることによって，試験に対するパフォーマンスが向上するかも検討した．方法：本研究は試験の難易度（コース），およびプロンプトの条件別にパフォーマンスを検討する，3×2の要因計画で行われた．メンタルヘルス・マネジメント（R）検定試験（I種～III種）の選択問題を，試験のコース別に過去4回分（200問），計600問用意した．また，I種試験においてのみ課される論述問題も過去4回分用意した．試験の合格基準は，II種・III種試験については「100点中70点以上」，I種試験については「選択問題100点・論述問題 50点のうち，得点の合計が105点以上．ただし，論述問題の得点が25点以上」であった．条件として，問題をそのままプロンプトとして使用する単純プロンプト条件と，これまでに大規模言語モデルのパフォーマンスを向上させることが確認されている方法でプロンプトを作成した調整プロンプト条件の2条件を設定した．モデルはGPT-4（gpt-4-0613）を採用し，実装にはOpen AI APIを使用した．結果：単純プロンプト条件における平均得点はIII種で74.5点，II種で71.5点，I種で64.0点であった．調整プロンプト条件においては単純プロンプト条件よりもわずかに正答率が高かったが，その効果は有意ではなかった（オッズ比1.03, 95％信頼区間, 0.65–1.62, p = .908）．単純プロンプト条件においては選択肢をひとつに絞れなかったことで誤答した問題があったが，調整プロンプト条件においては観察されなかった．論述問題（50点満点）の単純プロンプト条件における平均得点は22.5点であった．結論：GPT-4は職場のメンタルヘルスに対する一般的な知識体系を有しており，II種・III種試験において合格基準を上回った．より高度な知識，あるいは専門的知識を正確に記述する能力が求められるI種試験においては合格基準を下回った．この水準でGPT-4を活用する際には，外部の情報を組み合わせる必要がある．プロンプトの工夫は，パフォーマンスを有意に向上させなかったが，意図しない出力の制限や，出力形式の整理に対しては有効である可能性がある．UMIN試験登録：UMIN-CTR ID = UMIN000053582

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）