産業衛生学雑誌
Online ISSN : 1349-533X
Print ISSN : 1341-0725
ISSN-L : 1341-0725
原著
メンタルヘルス・マネジメント(R)検定試験に対するChatGPT(GPT-4)のパフォーマンス:要因計画法を用いた検討
渡辺 和広筒井 保博筒井 隆夫山内 武紀内田 満夫八谷 百合子金 一成飯田 真子今村 幸太郎櫻谷 あすか川上 憲人
著者情報
ジャーナル フリー HTML

2024 年 66 巻 6 号 p. 303-313

詳細
抄録

目的:本研究では,職場のメンタルヘルスに関する専門知識を問う試験問題として,大阪商工会議所・施行商工会議所が主催するメンタルヘルス・マネジメント(R)検定試験を採用し,GPT-4のパフォーマンスを検討することを目的とした.また,モデルに入力するプロンプトに工夫を加えることによって,試験に対するパフォーマンスが向上するかも検討した.方法:本研究は試験の難易度(コース),およびプロンプトの条件別にパフォーマンスを検討する,3×2の要因計画で行われた.メンタルヘルス・マネジメント(R)検定試験(I種~III種)の選択問題を,試験のコース別に過去4回分(200問),計600問用意した.また,I種試験においてのみ課される論述問題も過去4回分用意した.試験の合格基準は,II種・III種試験については「100点中70点以上」,I種試験については「選択問題100点・論述問題 50点のうち,得点の合計が105点以上.ただし,論述問題の得点が25点以上」であった.条件として,問題をそのままプロンプトとして使用する単純プロンプト条件と,これまでに大規模言語モデルのパフォーマンスを向上させることが確認されている方法でプロンプトを作成した調整プロンプト条件の2条件を設定した.モデルはGPT-4(gpt-4-0613)を採用し,実装にはOpen AI APIを使用した.結果:単純プロンプト条件における平均得点はIII種で74.5点,II種で71.5点,I種で64.0点であった.調整プロンプト条件においては単純プロンプト条件よりもわずかに正答率が高かったが,その効果は有意ではなかった(オッズ比1.03, 95%信頼区間, 0.65–1.62, p = .908).単純プロンプト条件においては選択肢をひとつに絞れなかったことで誤答した問題があったが,調整プロンプト条件においては観察されなかった.論述問題(50点満点)の単純プロンプト条件における平均得点は22.5点であった.結論:GPT-4は職場のメンタルヘルスに対する一般的な知識体系を有しており,II種・III種試験において合格基準を上回った.より高度な知識,あるいは専門的知識を正確に記述する能力が求められるI種試験においては合格基準を下回った.この水準でGPT-4を活用する際には,外部の情報を組み合わせる必要がある.プロンプトの工夫は,パフォーマンスを有意に向上させなかったが,意図しない出力の制限や,出力形式の整理に対しては有効である可能性がある.UMIN試験登録:UMIN-CTR ID = UMIN000053582

著者関連情報
© 2024 公益社団法人 日本産業衛生学会
前の記事 次の記事
feedback
Top