2024 年 73 巻 2 号 p. 323-331
近年,大規模言語モデル(large language models; LLM)が世界的に様々な分野で注目を集めている。LLMとは,非常に巨大なデータセットとディープラーニング技術を用いて構築された言語モデルである。LLMは,人間に近い流暢な会話が可能であり,自然言語を用いたさまざまな処理を高精度で行えることから,世界中で注目を集めている。本研究では,LLMであるOpenAI社が開発したChatGPTの異なる2つのモデル(GPT-3.5, GPT-4)にて,過去3年間の臨床検査技師国家試験におけるChatGPTの正答率について評価を行った。GPT-3.5による正答率の平均は51.4%であった。一方,GPT-4では79.8%の正答率結果が得られた。本結果より,ChatGPTはこの先医療現場における有効なアドバイザーとして進化する可能性をもつことが示唆された。しかし,今回不正解となった20%の中には,患者を診断する際に誤診につながりかねない回答が含まれており,今後のChatGPTの精度向上は必須と考えられる。今回の検証は,LLMにおけるChatGPTの臨床検査領域での多様な応用の進展に寄与すると考えられ,この先の発展に期待したい。