医学検査
Online ISSN : 2188-5346
Print ISSN : 0915-8669
ISSN-L : 0915-8669
資料
ChatGPTによる臨床検査技師国家試験正答率の検証
土井 洋輝石田 秀和永沢 大樹坪井 良樹菊地 良介市野 直浩秋山 秀彦齋藤 邦明
著者情報
ジャーナル フリー HTML

2024 年 73 巻 2 号 p. 323-331

詳細
Abstract

近年,大規模言語モデル(large language models; LLM)が世界的に様々な分野で注目を集めている。LLMとは,非常に巨大なデータセットとディープラーニング技術を用いて構築された言語モデルである。LLMは,人間に近い流暢な会話が可能であり,自然言語を用いたさまざまな処理を高精度で行えることから,世界中で注目を集めている。本研究では,LLMであるOpenAI社が開発したChatGPTの異なる2つのモデル(GPT-3.5, GPT-4)にて,過去3年間の臨床検査技師国家試験におけるChatGPTの正答率について評価を行った。GPT-3.5による正答率の平均は51.4%であった。一方,GPT-4では79.8%の正答率結果が得られた。本結果より,ChatGPTはこの先医療現場における有効なアドバイザーとして進化する可能性をもつことが示唆された。しかし,今回不正解となった20%の中には,患者を診断する際に誤診につながりかねない回答が含まれており,今後のChatGPTの精度向上は必須と考えられる。今回の検証は,LLMにおけるChatGPTの臨床検査領域での多様な応用の進展に寄与すると考えられ,この先の発展に期待したい。

Translated Abstract

In recent years, Large Language Models (LLM) have gained worldwide attention in various fields. LLM are language models built using extensive datasets and deep learning techniques. LLM have garnered global attention due to their ability to exhibit human-like fluency in speech and achieve high accuracy in various natural language-based processes. In this study, we examined whether LLM could correctly solve the National Clinical Laboratory Technician Examination for the past three years. We used ChatGPT (GPT-3.5 and GPT-4), one of the LLM developed by OpenAI. The results showed that GPT-3.5 had an average correct response rate of 51.4% over the past three years, which did not reach the passing level of 60%. On the other hand, GPT-4 had an average correct response rate of 79.8%. These findings indicate that ChatGPT has potential to evolve as an effective advisor in the field of clinical laboratory science. However, the 20% of incorrect answers in this study included answers that could lead to misdiagnosis when diagnosing patients, suggesting that further improvement of the accuracy of the ChatGPT is essential. We believe that this validation will contribute to the development of various applications of ChatGPT in LLM in the clinical laboratory field, and we look forward to its further development.

I  はじめに

近年急速に発展した人工知能(artificial intelligence; AI)は明確な定義としては存在しないが,一般社団法人 人工知能学会設立趣意書において,AIは「大量の知識データに対して,高度な推論を的確に行うことを目指したものである」と定められている1)。AIはマーケティングやファイナンスなど多くの分野において,様々なタスクや問題への画期的なアプローチ方法を提案することで,その役割を確立しつつある。医療現場においてもAI画像解析技術の応用により,放射線学分野における放射線画像の定量的評価2)や病理学分野における細胞の組織形態学的特性の解析による主要遺伝子変異の検索3)などが報告されている。さらに,循環器分野では,心電図解析にAIを適用することで,臨床診断の補助として活用する試み4)や外科学領域における術前のリスク評価,術中管理から合併症や転帰予測などの治療介入的な用途5)など,医学のさまざまな側面への応用が期待されている。

医療におけるAI技術の開発と応用が拡大し続ける一方で,これらの技術がより安全で効率的かつ費用対効果の高い医療を提供するために,AI技術をどのように活用できるかについて各分野の専門家が十分に議論することも重要である。現代社会は情報技術の急速な発展により,情報の氾濫とも言える状況に直面している。インターネットやソーシャルメディアの普及は個人レベルにおいても容易な情報の発信・取得を可能にした。しかしながら,これらの大量の情報には信憑性に乏しい誤情報や偽情報も含まれている。そのため,情報を適切に活用できる基礎能力である情報リテラシーの重要性が注目されている。特に健康や医療に関連する情報は個人の生活や意思決定に深刻な影響を与えるため,信頼性の高い情報を適切に評価することが求められる。さらに,近年では生成系AIの台頭が注目されている。

特にChatGPT6)に代表される大規模言語モデル(large language models; LLM)はその汎用性の高さからインターネットの発明と同じくらい重要であるとまで言われている。ChatGPTは事前学習済み文章生成変換器(generative pre-trained transformer; GPT)を導入したウェブアプリケーションサービスであり,チャット形式で入力される質問に対し,大量のテキストデータから事前に学習したモデルを用い,自然な解答を生成する。2022年11月にOpenAI社から公開されると,わずか2ヶ月でアクティブユーザーが全世界で1億人を突破した。文章の作成やプログラミングなどへの有用性からChatGPTは魅力的なサービスではあるが,専門性の高い問題や複雑な問題への対応が難しく,ChatGPTが「それらしい」解答を表示してしまうハルシネーションという問題点がある。また,現在無料で使用できるGPT-3.5は2021年9月までの情報で学習しており,それ以降の情報は参照できない。医療に関する情報をChatGPTに求めると専門家に相談するよう注意喚起も同時に出力されるが,個人の意思決定には少なからず影響する可能性がある。また,GPT-4は日本の医師国家試験において80%以上の正答率を示したことが報告されており,性能限界を踏まえた上での臨床現場の活用が検討されている7)。しかし,ChatGPTによる臨床検査技師国家試験の正答率について検証はされておらず,臨床検査領域に特化した内容を正確に解くことができるのか不明である。

今後のChatGPTの臨床検査領域における活用について,臨床検査技師は検査部内での配置転換による新分野での学習が求められる機会が多く,その際にChatGPTのリカレント教育への利用や,臨床検査をこれから学ぶ学生に対しても,情報が氾濫する中,手軽に臨床検査に特化した生成AIによるチャットボットを利用した学習環境の提供が期待できる。

ChatGPTは日々改良が加えられ,学習量が多いほど設問に対する回答精度の向上が見込まれる。本研究では無料で手軽に利用可能なGPT-3.5と比較して,有料版であるが学習量の多いGPT-4で臨床検査技師国家試験の正答率が向上しているのか検討した。GPT-4で正答率の向上が認められれば,今後改良が加えられるであろうChatGPTの臨床検査領域における展開が期待される。

II  対象と方法

厚生労働省のホームページにて公開されている2020年(第67回)から2022年(第69回)の3年間の臨床検査技師国家試験問題8)~10)のうち,画像問題(100問)を除く500問を解析対象とし,試験科目種別,問題種別(基礎・専門)に解析を実施した。試験科目および問題種別の分類は,厚生労働省が定める「臨床検査技師国家試験出題基準と試験科目との対応表」に基づいて臨床検査技師免許を有する2名の教員により試験科目を10分野(臨床検査総論,臨床検査医学総論,臨床生理学,臨床化学,病理組織細胞学,臨床血液学,臨床微生物学,臨床免疫学,公衆衛生学,医用工学概論)に,問題種別を各分野に対し,基礎と専門の2分野に分類した。問題及び解答の選択肢は改変せず入力し,GPT-3.5モデルおよびGPT-4モデルのChatGPT(OpenAI社)を用いた解答を生成した(実施期間:2023年6月26日-2023年7月7日)。解答の正誤は,厚生労働省が公開している正答値表から判断した。また,解答として求められる正答は1つであるにも関わらず,GPTが複数の選択肢を提示したような解答選択数の誤りについても評価を行った。統計解析は統計解析ソフトRを使用し,GPT-3.5とGPT-4.0の正答率および解答選択数の誤りの比較にはMcNemar’s test,問題種別の正答率比較にはChi-squared testを用いて検証した。

III  結果

1. GPT-3.5,GPT-4における過去3年間の文章形式問題の正答率

Figure 1にGPT-3.5,GPT-4における解析対象とした,過去3年間の臨床検査技師国家試験問題の正答率を示す。2020年(第67回),2021年(第68回)および2022年(第69回)の3年間の臨床検査技師国家試験問題においてGPT-3.5での正答率はそれぞれ53.8%(93問/173問),54.3%(88問/162問),46.1%(76問/165問)であり,3年間の平均正答率は51.4%であった。一方,GPT-4での正答率はそれぞれ83.2%(144問/173問),79.6%(129問/162問),76.4%(126問/165問)であり3年間の平均正答率は79.8%であった。GPT-4の正答率は,すべての年度においてGPT-3.5と比して有意な上昇を認めた(p < 0.001)。

Figure 1  The correct rates of answers GPT-3.5 and GPT-4 on the National Clinical Laboratory Technician Examination for the past three years

3.5, the answers by GPT-3.5; 4, the answers by GPT-4; 2021, 2022, 2023, the years in which the National Clinical Laboratory Technician Examinations were held; McNemar’s Chi-squared test with continuity correction, ; p-value < 0.001

Figure 2にChatGPTに入力した問題とGPT-3.5,GPT-4での回答例を提示する。提示した設問に対し,GPT-3.5では専門用語である標準予防策について誤認識されており,ChatGPTが「それらしい」解答を表示してしまうハルシネーションが確認された。しかし,GPT-4では標準予防策についての説明と設問に対する正答が示された。

Figure 2  The example of ChatGPT (GPT-3.5 and GPT-4) input/output screen

A. The sample question to ChatGPT (GPT-3.5 and GPT-4)

B. The GPT-3.5 answer in ChatGPT to the question

C. The GPT-4 answer in ChatGPT to the question

Figure 3にGPT-3.5,GPT-4から得られた回答で,診断を行う際に誤診につながりかねない回答例を提示する。提示した設問に対し,GPT-3.5,GPT-4ともに「マラリア患者の血液塗抹標本のGiemsa染色に適するバッファーのpHはどれか。」といった設問に対して,本来であればpH 7.4で染色することで原虫の原形質や斑点が鮮明となるが,不適切なバッファーのpH(pH 6.8)を選択していた。

Figure 3  The example of ChatGPT (GPT-3.5 and GPT-4) input/output screen

A. The sample question to ChatGPT (GPT-3.5 and GPT-4)

B. The GPT-3.5 answer in ChatGPT to the question

C. The GPT-4 answer in ChatGPT to the question

Figure 4にGPT-3.5,GPT-4から得られた回答で,学習言語の違いによる回答例を提示する。提示した設問に対し,GPT-3.5では育児・介護休業法を選択していたが,GPT-4では正答である労働基準法を選択していた。

Figure 4  The example of ChatGPT (GPT-3.5 and GPT-4) input/output screen

A. The sample question to ChatGPT (GPT-3.5 and GPT-4)

B. The GPT-3.5 answer in ChatGPT to the question

C. The GPT-4 answer in ChatGPT to the question

2. 試験科目種別の正答率

厚生労働省が定める「臨床検査技師国家試験出題基準と試験科目との対応表」に則った試験科目の分類別にGPT-3.5,GPT-4における正答率を比較したところ,臨床検査医学総論,医用工学概論を除くすべての科目においてGPT-4で有意な正答率の上昇を認めた(Table 1)。

Table 1 The correct rates of answers GPT-3.5 and GPT-4 on the National Clinical Laboratory Technician Examination for the past three years by basic and specialty categories

GPT-3.5 GPT-4 p-value
正答/誤答 正答率 正答/誤答 正答率
臨床検査総論 26/32 44.8% 44/14 75.9% < 0.001
臨床検査医学総論 22/8 73.3% 28/2 93.3% 0.077
臨床生理学 26/20 56.5% 39/7 84.8% 0.002
臨床化学 48/48 50.0% 71/25 74.0% < 0.001
病理組織細胞学 34/35 49.3% 57/12 82.6% < 0.001
臨床血液学 16/19 45.7% 30/5 85.7% 0.001
臨床微生物学 26/28 48.1% 46/8 85.2% < 0.001
臨床免疫学 29/26 52.7% 39/16 70.9% 0.044
公衆衛生学 8/21 27.6% 20/9 69.0% 0.003
医用工学概論 22/6 78.6% 25/3 89.3% 0.4
Total 257/243 51.4% 399/101 79.8% < 0.001

P-values were calculated by McNemar’s Chi-squared test with continuity correction

3. 問題種別の正答率

Table 2では基礎および専門分野の問題で正答率に違いがあるか比較した結果を示す。GPT-3.5は,基礎で54.6%(83問/152問),専門で50.0%(174問/348問)を正答しており有意差は認めなかった(p = 0.4)。対してGPT-4は,基礎で86.2%(131問/152問),専門で77.0%(268問/348問)と基礎分野の問題の正答率が有意に高かった(p = 0.026)。また,年度別に解析した結果,有意な差異は示さなかったが,各年度で基礎分野の正答率が高いことが分かる。

Table 2 The correct rates of answers GPT-3.5 and GPT-4 on the National Clinical Laboratory Technician Examination for the past three years by basic and specialty categories

正答/誤答(正答率) p-value
基礎 専門
GPT-3.5 2021 29/24(54.7%) 64/56(53.3%) 0.998
2022 31/20(60.8%) 57/54(51.4%) 0.342
2023 23/25(47.9%) 53/64(45.3%) 0.893
Total 83/69(54.6%) 174/174(50.0%) 0.400
GPT-4 2021 48/5(90.6%) 96/24(80.0%) 0.135
2022 43/8(84.3%) 86/25(77.5%) 0.428
2023 40/8(83.3%) 86/31(73.5%) 0.251
Total 131/21(86.2%) 268/80(77.0%) 0.026

P-values were calculated by Pearson’s chi-squared test with Yate’s continuity correction

4. 解答選択数の誤りにおける比較

Figure 5に解答選択数に誤りを生じた問題数を示す。解答選択数を誤った問題数は,GPT-3.5で59問(11.8%)に対してGPT-4で24問(4.8%)でありGPT-4で有意に減少していた(p < 0.001)。一方,誤答した問題で解答選択数が原因であったのは,GPT-3.5では24.3%(59問/243問),GPT-4では23.8%(24問/101問中)とほぼ同じ割合であった(p = 1.0)。

Figure 5  Incorrect number of response selections GPT-3.5 and GPT-4 on the National Clinical Laboratory Technician Examination for the past three years

McNemar’s Chi-squared test with continuity correction, ; p-value < 0.001

IV  考察

ChatGPTは膨大なパラメータを用いた自然言語処理モデルであり,大量のテキストデータから事前に学習したディープラーニングアルゴリズムを活用して,チャット形式で入力される質問に対し,人間が作成するような自然な解答を得ることを可能としている。ChatGPTは汎用の対話エージェントとして,幅広いトピックに対応できるように設計されており,カスタマーサービスやチャットボット,各分野の教育などに対し有用なツールとなる可能性がある11)~13)。医学や医療分野でもChatGPTの応用に関する研究が盛んに行われており,本研究でも使用しているGPT-4が,過去6回分の日本の医師国家試験に合格したとする論文が報告されている。しかしながら,ChatGPTは医師国家試験の解答の際に,日本の医療現場では禁忌とされる安楽死を選択するといった課題も浮き彫りとなっており,今後さらなる改良が必要とされる14)。また,実際の医療に即した場面においてもChatGPTを使用し,短いプロンプトから患者の退院サマリーをChatGPTが生成することにより,医師が患者ケアや発達訓練に投資できる貴重な時間を確保できるとの報告もあるが,先ほど同様不十分な点も確認されている。ChatGPTはプロンプトに含まれていない余分な情報をサマリーに追加しており,臨床に導入された場合,自動化された出力を手動でチェックする必要があることが問題とされている15)。一方で,ChatGPTは使用方法を限定することで医療現場における有効なアドバイザーとしての可能性をもつことが示唆されている16)。また,ChatGPT(特にGPT-3.5)はその学習データが主に英語であるため,英語での応答の精度が最も高いとされており,英語での質問の方が日本語による質問と比較して,正確かつ詳細な解答を得られる可能性が高い。

本研究においてGPT-3.5の正答率は全体で51.4%と合格水準である60%には達していなかった。試験科目種別では臨床検査医学総論および医用工学概論で正答率が60%を超えていた一方,その他の科目は60%を下回った。特に公衆衛生学において正答率が27.6%と非常に精度の悪い結果であった。正答率が低い原因の一因として,正しい選択肢は1つであるにもかかわらず,GPT-3.5では複数の解答を提示した設問が全設問数の11.8%であり,解答選択数の誤りが正答率の低い原因の一因ではないかと考えられる。また,臨床検査医学総論のような一般的な医学知識における正答率は高かったが,公衆衛生学では本邦の関係法規に関する問題が含まれるため,Figure 4で示したような設問では,学習言語が英語であるGPT-3.5では正答率が低い可能性が考えられる。

GPT3.5と同様の手法でGPT-4を使用した結果,正答率が79.8%と,GPT-3.5と比較して精度の向上がみられる。また,過去3年間すべての年度において正答率の有意な上昇を確認しており,合格水準である60%を大きく上回る結果となった。試験科目種別では公衆衛生学を除くすべての分野で正答率が70%を超えており,特に臨床検査医学総論では正答率93.3%と非常に精度の良い解答結果を得ている。解答選択数の誤りに関してもGPT-4ではGPT-3.5と比較して有意に減少した。各設問を基礎と専門で比較検討したところ,基礎の設問で有意に正答率が高かった。これは臨床検査領域に特化した設問ではなく,一般的な医学知識を問う設問の方が事前に学習することができる情報量が多いため,正答率に違いが生じたのではないかと考えられる。

GPT-3.5に対してGPT-4の正答率が上昇した理由の一つに事前学習量とパラメータ数の増加に伴う精度向上が考えられる。一般的にLLMのような深層学習モデルはパラメータ数が多いほど予測精度が向上すると言われている。GPT-4のパラメータ数は現在非公開であるが,これまでのGPTにおけるパラメータ数の推移からもGPT-3.5と比較してGPT-4でのパラメータ数の大幅な増加が予想される。GPT-3.5よりもGPT-4はさらに膨大なパラメータで事前学習を行い,より多くの情報を持つため,正答に近い選択肢を提示可能になったと考えられる17),18)。一方で,誤答した問題のうち解答選択数の誤りが原因である割合はGPT-3.5,GPT-4でほぼ同じであった。これは,ChatGPTが問題の意図を正確に判断できていない可能性があり,もっともらしい解答を生成した結果であると推測される。そのため,問題文で解答選択数の指定をすることで正答率の改善が見込まれると考えられる。

本研究の限界として,次の2点が挙げられる。まず,厚生労働省のホームページにて公開されている臨床検査技師国家試験問題には試験科目種別,問題種別(基礎・専門)の分類の明記がなく医療検査学科教員2名で判断したため,分類ミスがある可能性が否定できない。また,実際の活用場面ではChatGPTに対し試験問題のような質問を入力することはない。試験では選択肢を提示して選べという設問が多いが,実際の活用場面では質問に対する情報を求めることになる。この点については今後,LLMの臨床応用を進めていく段階に十分な検証をすべきである。

今回GPT-4における過去3年間の臨床検査技師国家試験問題の正答率が79.8%とこの先医療現場における有効なアドバイザーとして進化する可能性をもつことが示唆された。しかしながら,Figure 3で示したようにマラリア患者の血液塗抹標本のGiemsa染色に関して,不適切なバッファーのpHを選択しており,臨床の現場ではマラリア原虫を見落とすことで誤診につながりかねない回答もあった。これはChatGPTの「もっともらしい」応答を生成する負の特徴である。OpenAI社の提供するChatGPTはアプリケーション・プログラム・インターフェイス(application program interface; API)が有料で提供されており,ChatGPT APIを利用することで任意の特化型チャットボットを作成することも可能である。今後のChatGPTの精度向上は必須と考えられ,臨床検査特化型のAIチャットボットの開発も望まれるところである。

V  結語

本研究はOpenAI社が開発したChatGPTの異なる2つのモデル(GPT-3.5, GPT-4)について,本邦の過去3年間の臨床検査技師国家試験問題を用いて評価を行った。GPT-3.5では過去3年間の国家試験すべてにおいて合格水準には達していなかったが,GPT-4を使用することにより合格水準に達し,正答率も約80%とこの先医療現場における有効なアドバイザーとして進化する可能性をもつことが示唆された。今回我々の研究結果が,LLMにおけるChat GPTの臨床検査領域での多様な応用の進展に寄与すると考えられ,この先の発展に期待したい。

COI開示

本論文に関連し,開示すべきCOI 状態にある企業等はありません。

 謝辞

Laboratory Data-Science研究会の皆様には本研究の遂行にあたり,多大なご助言,ご協力頂きました。ここに感謝の意を表します。

文献
 
© 2024 一般社団法人 日本臨床衛生検査技師会
feedback
Top