近年,臨床検査技師の業務内容は大きく変化しており,臨床検査技師養成課程においても教育内容の充実が求められている。令和4年度のカリキュラム改訂により,臨地実習の受け入れ先となる病院においては教育体制整備が必要となった。本検討では臨地実習生教育業務の効率化を目的とし,OpenAI社が開発した大規模言語モデル(large language models; LLM)による対話型AIサービスであるChatGPTを活用した血液検査学に関する臨地実習生教育の問題作成支援について,その有用性の評価を行った。教育スライド資料を用いた問題作成として,五肢択一問題を30問作成し,その不適切問題数および割合を算出した。Reversed Clinico-pathological Conference(RCPC)用の症例教材作成として,10種類の血液関連疾患の教材を作成し,検査結果,血液像所見,症例としての情報不足の評価を行い,教材の適切性を検証した。教育スライド資料を用いた問題作成では,不適切問題数は全30問中6問(20%)であった。RCPC用の症例教材作成では,ChatGPT-4oにおいて13件の誤りを認め,OpenAI o1において16件の誤りを認めた。ChatGPTを用いた教育問題作成は,臨地実習における指導者の負担軽減に貢献する可能性がある。しかし,問題や教材の正確性を確保するためには,臨床検査技師による適切な監修が必要である。
In recent years, the responsibilities of clinical laboratory technologists have evolved significantly, necessitating enhancements in their training programs. Following the 2022 curriculum revision, hospitals accepting clinical trainees are required to establish a structured educational framework. This study aimed to improve the efficiency of clinical training by evaluating the usefulness of ChatGPT, an interactive AI service based on large language models (LLMs) developed by OpenAI, in assisting with the creation of hematology-related educational questions. Using educational slide materials, 30 multiple-choice questions were generated, and the number and proportion of inappropriate questions were analyzed. Additionally, for the development of case-based materials for the Reversed Clinico-Pathological Conference (RCPC), teaching materials covering 10 different hematologic diseases were created. The adequacy of these materials was assessed based on laboratory findings, peripheral blood smear observations, and completeness of case information. In the multiple-choice question generation, 6 out of 30 questions (20%) were deemed inappropriate. In the development of RCPC case materials, ChatGPT-4o contained 13 errors, while OpenAI o1 contained 16 errors. The use of ChatGPT in educational question generation has the potential to reduce the burden on clinical training instructors. However, to ensure the accuracy of questions and teaching materials, appropriate supervision by clinical laboratory technologists remains essential.
近年,臨床検査技師の業務内容は,検査技術の発展,高度化する医療ニーズへの対応,さらにはチーム医療推進やタスクシフト・シェアによって大きく変化している1)。これまでの臨床検査技師は検査室内の業務に留まっていることが少なくないが,医療の多様化に伴い,臨床現場でのさらなる活躍が求められている。このような状況に対応するため,臨床検査技師養成課程においても教育内容の充実が求められている。
令和4年度のカリキュラム改訂では臨地実習が5単位増加し合計12単位となり,その指導内容について「必ず実施させる行為」「必ず見学させる行為」「実施することが望ましい行為」の3区分が設定された2)。さらに,実習の具体的な学習目標が明確化され,従来の検査業務の学習指導に加え,栄養サポートチーム(nutrition support team; NST)や感染制御チーム(infection control team; ICT)への参加,消化管内視鏡検査の見学といった新たな学習項目が追加されることとなった。教育充実化の反面,臨地実習の受け入れ先となる病院においては日々の膨大な業務に加え,タスクシフト・シェアなどの臨床ニーズへの対応に追われるなか,より有意義な臨地実習を実現するための教育体制整備が必要となる。
病院における臨地実習においては,現場の臨床検査技師が学生に対して密度の高い指導を行うことが理想的であるが,限られた時間と人員の中で全ての実習生に均等な教育を提供することは容易ではない。特に,臨地実習指導の標準化を図ることは困難であり,指導者の経験や裁量によって教育の質にバラツキが生じる可能性がある。そのため,教育の効率化および標準化を実現する新たな手段として,人工知能(artificial intelligence; AI)技術の活用が注目されている3)。
近年急速に発展した大規模言語モデル(large language models; LLM)は,膨大なテキストデータを学習し,人間の言語に基づいた高度な対話が可能となっている。医療分野においても,診断支援や医療研究の補助,患者対応などさまざまな用途への応用が検討されており,教育分野においてもその有用性が期待されている4)~7)。特に,テキストベースの学習支援においては,AIが学生の質問に対して即座にフィードバックを提供したり,適切な学習課題を自動生成したりすることで,学習の効率化が図れる可能性がある。さらに,今後さらなる技術的進歩が期待されており,ChatGPTによる臨床検査技師国家試験の正答率について,GPT-3.5と比較してGPT-4では向上している報告もある8)。
本検討では臨地実習生教育業務の効率化を目的とし,OpenAI社が開発したLLMによる対話型AIサービスであるChatGPTを活用した血液検査学に関する臨地実習教育の問題作成支援について,その有用性の評価を行った。特に,ChatGPTを用いることで,臨床検査技師の実習指導における問題作成の負担軽減や,学習効果の向上が期待できるかについて検討を行った。
2024年5月までに当院の臨床検査技師が作成した臨地実習用の血液検査に関する教育スライド資料(PowerPoint資料)をChatGPTにアップロードし,五肢択一問題を30問作成した。本資料は臨地実習生が血液検査学の基礎知識および臨床応用を学ぶために作成されたものであり,血液検査の基本的事項(血球算定や血液像等),骨髄検査と血栓止血検査,および血小板凝集能検査とT細胞B細胞サブセット検査の3つに分類されている。なお,ChatGPTにおける言語モデルはGPT-4o(2025年2月15日時点)を使用し,ChatGPTへの命令文(プロンプト)は「この資料をもとに,学生用の練習問題を作成してください。」とした。生成された五肢択一問題について,問題文または解答選択肢に不適切箇所があるか検証を行い,その不適切問題数および割合を算出した。なお,適切性の確認は血液検査業務経験3年以上の臨床検査技師1名と,認定血液検査技師2名の計3名により行った。各問題に対し,3名が個別に内容の妥当性を評価し,全員が不適切箇所と判断した場合に限り,不適切問題としてカウントした(Figure 1a)。

ChatGPTに10種類の血液関連疾患を指定し,生化学免疫検査,血栓止血検査,尿一般検査,血球数算定検査,血液像検査,および血液像所見の検査結果を表形式で出力するように指示を行い,Reversed Clinico-pathological Conference(RCPC)用症例教材を作成した(Table 1)。作成に際しては事前情報を与えず,モデルはGPT-4oおよびOpenAI o1(2025年2月15日時点)を使用した。
| 与えた資料 | 使用モデル | プロンプト | |
|---|---|---|---|
| 教育スライド資料を用いた問題作成 | あり | GPT-4o | この資料をもとに,学生用の練習問題を作成してください。 |
| RCPC用の症例教材作成 | なし | GPT-4o,o1 | 臨床検査技師養成校の臨地実習教材用にReversed-Clinicopathological Conferenceの血液検査学の症例問題を作ってください。 #疾患は「 」で指定します。 #検査値は表形式 #以下の検査結果を含む ##生化学免疫検査 ##血栓止血検査 ##尿一般検査 ##血球数算定検査 ##血液像検査 ##血液像所見 |
生成された症例教材ついて,検査結果,血液像所見,症例としての情報不足の評価を行い,教材の適切性を検証した(Figure 1b)。
ChatGPTのGPT-4oに教育スライド資料をアップロードし,確認用の練習問題作成を依頼した。その後,作成された全30問について,臨床検査技師3名による評価を実施した。その結果,血液検査の基本事項に関する資料から作成した問題では,問題文に不適切箇所のある問題が15問中1問(7%),解答選択肢に不適切がある問題が15問中4問(27%)であった。骨髄検査および血栓止血検査に関する資料から作成した問題では,解答選択肢に不適切がある問題が5問中1問(20%)であった。一方,血小板凝集能およびT細胞B細胞サブセット検査に関する資料から作成した10問には不適切問題は認められなかった。問題文における不適切内容としては,MCHCの計算式を問う問題において,ChatGPTの出力がLaTeX記法のままで表示され,¥fracや¥timesなどの制御記号が計算式に混在しており,計算式を正しく読み取ることが困難であった。また,解答選択肢における不適切内容としては,単一正答形式の設問にも関わらず,すべての不適切問題において複数の選択肢が正答となってしまっていた点が挙げられる。
問題文に不適切箇所があった問題が全30問中1問(3%),解答選択肢に不適切箇所があった問題が全30問中5問(17%)であり,不適切問題数は全30問中6問(20%)であった(Table 2)。
| 問題作成に使用した資料 | 生成問題数 | 問題文の不適 | 解答選択肢の不適 |
|---|---|---|---|
| 血液検査の基本的事項(血球算定や血液像等) | 15 | 1(7%) | 4(27%) |
| 骨髄検査 血栓止血検査 |
5 | 0(0%) | 1(20%) |
| 血小板凝集能検査 T細胞B細胞サブセット検査 |
10 | 0(0%) | 0(0%) |
| 合計 | 30 | 1(3%) | 5(17%) |
ChatGPTのGPT-4oおよびOpenAI o1に対し,Table 1のプロンプトにて症例問題の作成を指示した。対象疾患はTable 3に示す血液関連疾患10種とした。GPT-4oを用いて作成したRCPC症例において,検査結果に不適切箇所があった症例は,巨赤芽球性貧血,多発性骨髄腫,および骨髄線維症であった。また,血液像所見に不適切箇所があった症例は慢性リンパ性白血病,成人T細胞白血病(adult T-cell leukemia; ATL),骨髄異形成症候群(myelodysplastic syndromes: MDS),および伝染性単核球症であり,特にATLでは2件,MDSでは3件の不適切箇所があった。読解するにあたり症例に対する情報が不足していた疾患は巨赤芽球性貧血,急性前骨髄性白血病(acute promyelocytic leukemia; APL),およびMDSであった。
| 生成させた疾患 | ChatGPT 4o不適箇所 | ChatGPT o1不適箇所 | ||||
|---|---|---|---|---|---|---|
| 検査結果 | 血液像所見 | 情報不足 | 検査結果 | 血液像所見 | 情報不足 | |
| 巨赤芽球性貧血 | 1 | 0 | 1 | 1 | 1 | 1 |
| 慢性骨髄性白血病 | 0 | 0 | 0 | 0 | 0 | 0 |
| 慢性リンパ性白血病 | 0 | 1 | 0 | 0 | 0 | 0 |
| 急性前骨髄性白血病 | 0 | 0 | 1 | 1 | 1 | 1 |
| 成人T細胞性白血病 | 0 | 2 | 0 | 0 | 1 | 0 |
| 骨髄異形成症候群 | 0 | 3 | 1 | 0 | 3 | 1 |
| 伝染性単核球症 | 0 | 1 | 0 | 0 | 1 | 1 |
| 多発性骨髄腫 | 1 | 0 | 0 | 0 | 0 | 0 |
| 骨髄線維症 | 1 | 0 | 0 | 0 | 2 | 0 |
| 血栓性血小板減少性紫斑病 | 0 | 0 | 0 | 1 | 0 | 0 |
一方,OpenAI o1を用いて作成したRCPC症例において,検査結果に不適切箇所があった症例は巨赤芽球性貧血,APL,および血栓性血小板減少性紫斑病であった。また,血液像所見に不適切箇所があった症例は巨赤芽球性貧血,APL,ATL,MDS,伝染性単核球症,および骨髄線維症であり,特にMDSでは3件,骨髄線維症では2件の不適切箇所があった。症例に対する情報が不足していた疾患は,巨赤芽球性貧血,APL,MDS,および伝染性単核球症であった。
不適切箇所について両モデルを比較すると,ChatGPT-4oにおいては検査結果では3疾患,血液像所見では4疾患,情報不足では3疾患あり,合計13件の誤りを認めた。一方,OpenAI o1においては検査結果では3疾患,血液像所見では6疾患,情報不足では4疾患あり,合計16件の誤りを認めた(Table 3)。
本検討の結果から,ChatGPTを用いた臨地実習教育の問題作成は一定の精度を持ち,教育現場における問題作成の効率化に寄与する可能性が示唆された。特に,従来の手作業による作成と比較して,問題文や選択肢の作成に要する時間が大幅に短縮されると考えられる。さらに,AIによる問題作成は,アップロードした教育資料をもととすることで,指導者の知識や経験に依存しないため,教育の標準化に貢献する可能性がある。
また,RCPC用教材の作成においても,ChatGPTを活用することで,希少疾患を含む多様な症例を迅速に作成できる可能性が示された。特に,必要な検査項目を指定して出力できる点は,指導者が新たに教材を作成する際の負担を軽減する利点がある。さらに,AIを用いた症例作成は,患者情報の取り扱いに関する倫理的な課題を回避する上でも有効であると考えられる。従来,実習教育においては,実際の症例データをもとに教材を作成することがあったが,患者プライバシーの観点から,データの取り扱いには慎重を要することが必要不可欠となってきた。AIによる症例作成を活用することで,個人情報を含まない仮想的な症例を作成できる点は,教育現場において大きな利点になると考えられる。
教育現場におけるChatGPT活用のその他の利点として,臨地実習で使用する教材をもとに,学習内容に即した問題を生成できる点が挙げられる。これにより,実習生は自身が学んだ内容をより深く理解し,知識の定着や応用力の向上が期待される。また,AIによる問題作成だけでなく,自由記述問題の解答添削も可能である。AIによる採点により指導者の主観的な影響を受けにくい,公平な評価を実現できる可能性がある。臨床教育現場においては指導者ごとの力量により,指導内容や評価基準にバラツキが生じることが課題となるが,AIを活用することで指導内容や評価において,客観的な評価基準の統一が可能となると考えられる。
一方で,問題作成において一部に不適切な出力が認められたことから,臨床教育へのAI導入に際しては,不適切問題の発生原因を把握し,その対策を講じる必要がある。本検討で確認されたLaTeX記法のまま出力された問題に関しては,出力形式の指定が不十分であったことが原因と考えられる。したがって,出力時には一般的な算術記号の使用を明示するなど,形式に関するプロンプト設計の工夫が必要であったと考える。また,複数の正答が存在していた問題においては,アップロード資料中の情報のみに基づいて選択肢が生成されたため,資料に記載はないが正答である内容が,誤って不正解の選択肢として扱われていたことが原因として考えられた。このような事例を防ぐためには,オンライン上の公的情報も参照するなど,参照情報源の拡張が必要であったと考える。
さらに,RCPC用教材の作成においては,GPT-4oおよびOpenAI o1の両モデルで問題作成時よりも多くの誤りが認められた。特に血液像所見に関しては多数の不適切な記述がみられたが,これは基礎資料をアップロードせず,ChatGPTがオンライン上の情報のみをもとに症例を生成したことが原因と考えられる。血液像所見は専門性の高い分野であり,一般的なウェブ上の情報量ではカバーしきれない領域であるため,信頼性の高い医療専門サイトや学術資料をプロンプトと併用する必要がある。
上述のように,問題の精度や内容にはプロンプト設計が大きく影響を及ぼす。本検討では,「臨床検査技師養成学校の学生」を対象とした問題であることを明示すること,「生化学免疫検査,血栓止血検査,血球数算定検査等」の出題範囲を明確に設定することを行い,生成される問題が教育目標に即したものとなるようにプロンプトの設計を行った。
そして,検査結果や血液像所見に不適切な情報が含まれる場合,特に臨床診断としてキーとなる重要な項目においては,誤った知識の定着による誤判定のリスクがある。そのため,AIが生成した内容をそのまま使用するのではなく,適切なレビューおよび修正を加えることが不可欠である。また,疾患情報の不足についても,AIが出力したデータの網羅性が十分でない可能性があるため,指導者が補足する体制を整えることが求められる。このように,医療分野においてAI技術を活用する際には,その利便性とともに,情報の正確性や倫理的側面も考慮する必要がある。特に,医学教育の領域では,情報の偏りや不確かさが問題となる場合があり,AIが誤った内容を出力した際の責任の所在や誤情報による教育の質低下などのリスクについても検討する必要がある。AIが生成する情報は膨大なデータに基づいているものの,そのデータが必ずしも最新かつ正確であるとは限らないため,専門家による確認が不可欠である9)。
今後,AIの精度向上が進むことで,より高精度な問題作成や教材生成が可能になると考えられる。教育現場においては,AIを活用しつつも,最終的な品質管理は各検査分野の経験を有する臨床検査技師が担うことで,実習教育の質を維持し,向上させることが重要である。
ChatGPTを用いた教育問題作成は,臨地実習における指導者の負担軽減に貢献する可能性がある。本検討では,問題作成の自動化により指導者の業務負担が軽減され,指導の標準化が促進される可能性が示された。
しかし,問題や教材の正確性を確保するためには,臨床検査技師による適切な監修が必要である。また,AI技術の発展とともに,より高精度な問題作成が可能になることが期待される。今後は,実践的な活用方法をさらに検討し,教育の質の向上に寄与することを目指す。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。