YAKUGAKU ZASSHI
Online ISSN : 1347-5231
Print ISSN : 0031-6903
ISSN-L : 0031-6903
Symposium Reviews
A Novel Approach to Analyze the Factors Affecting Adverse Drug Reactions by Combination of Electronic Medical Record Database and Machine Learning Method
Shungo Imai
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2023 Volume 143 Issue 6 Pages 485-489

Details
Summary

Decision tree analysis, a flowchart-like tree framework, is a typical machine learning method that is widely used in various fields. The most significant feature of this method is that independent variables (e.g., with or without concomitant use of vasopressor drugs) are extracted in order of the strength of their relationship with the dependent variable to be predicted (e.g., with or without adverse drug reactions), forming a tree-like model. Specifically, users can easily and quantitatively estimate the proportion of event occurrences considering “interrelationships among multiple combinations of factors” by answering the questions in the constructed flowchart. Previously, we applied the decision tree model to vancomycin-associated nephrotoxicity and demonstrated that this method can be used to analyze the factors affecting adverse drug reactions. However, the number of cases that can be analyzed decreases significantly as the number of branches increases. Thus, many cases are necessary to generate highly accurate findings. In attempt to solve this problem, we combined big data and decision tree analyses. In this review, we present the results of our research combining big data (electronic medical record database) and a machine learning method. Furthermore, we discuss the limitations of these methods and factors to consider when applying the results of big data and machine learning analyses to clinical practice.

1. はじめに

薬剤投与後の患者モニタリングと,それに基づいた情報の医師・看護師等へのフィードバック(処方変更の提案等)は,副作用の軽減と防止のために極めて重要である.近年,本邦では病棟薬剤師等による積極的な副作用モニタリングが実施され,その成果はエビデンスとして蓄積されつつある.13また,薬局においても改正薬剤師法・医薬品,医療機器等の品質,有効性及び安全性の確保等に関する法律(薬機法)が2020年9月から施行され,薬剤使用期間中のフォローアップが義務化された.このことを勘案すると,副作用モニタリングにおける薬剤師の役割は益々大きくなっていると言えよう.

一方で,多忙な薬剤師業務の中ですべての患者に対して均質的な副作用モニタリングを実施することは現実的ではなく,患者個々の「副作用発現リスク」を適切に評価したうえで濃淡のあるフォローアップが求められる.この「副作用発現リスク」の評価のためには,各薬剤の副作用要因分析の結果を参照することが有用である.実際,筆者もバンコマイシン(vancomycin: VCM)のtherapeutic drug monitoring(TDM)業務において,既報の要因分析の結果を参考にしながら副作用モニタリングを行ってきた.4,5

これまで,多くの副作用要因分析はロジスティック回帰分析等を用いた多変量解析によって実施されてきた.本手法は変数間の相互関係を考慮したうえで,各リスク因子の寄与度をオッズ比として明示できる利点を有する.しかしながら,実臨床では副作用のリスク因子を複数持つ患者が多く,このような症例においてその発現リスクをどのように評価するか(回帰式を用いればリスク評価はできるが),難渋する場面に頻繁に遭遇する.そこで筆者は,クレジットカードの解約リスクを,従業員が簡単に予測できるモデルとして書籍で紹介されていた機械学習法である「Decision Treeモデル」に着目し,この手法を副作用の要因分析に応用することを試みてきた.本総説では,単施設でのモデル構築を皮切りに,より一般化可能なエビデンス創出を目指して取り組んでいる医療ビッグデータを用いた研究成果を紹介する.さらに,これらの研究限界とデータの臨床応用における留意点を記述する.これらの情報が,これから機械学習や医療ビッグデータを利用しようとする研究者,並びにその研究成果を活用しようとする医療従事者の参考になれば幸いである.

2. 自施設の患者データを用いたDecision Treeモデル構築6)

多くの薬剤師にとって,自施設の患者データの後ろ向き調査が最も着手し易い研究であろう.筆者も同様であり,当時所属していた北海道大学病院の患者データを利用してDecision Treeモデルを構築することとした.モデル構築にあたり,対象薬剤と副作用の選定は極めて重要である.筆者は自施設で比較的多くのサンプルサイズ(500例程度)を確保でき,かつ自身で臨床的な視点から解析結果を吟味可能な「VCMによる腎機能障害」を対象とすることとした.また,もう一つの選定理由として,VCMによる腎機能障害は研究実施時点で既に多くの要因分析が実施されており,構築したモデルの外的妥当性を評価し易かったことが挙げられる.4,5

解析対象は2011年11月から2016年4月までにVCMが投与されTDMが実施された18歳以上の患者のうち,除外基準に該当しない症例とした.腎機能障害の定義(予測する変数:従属変数)と副作用発現因子(予測するために用いる変数:独立変数)は,既報を参考に選定・決定していった.4,5 Decision Treeモデルには複数の構築アルゴリズムが存在するが,筆者はカイ2乗検定に基づく交互作用の自動検出アルゴリズムであるChi-squared automatic interaction detection algorithm(CHAID)法を利用した.7機械学習を実施するにあたり,R言語やPython等のプログラミング技術を有することが望ましいが,これは必要条件ではない.CHAID法のような比較的シンプルなアルゴリズムは市販の統計解析ソフトウェアでも実装されており,初心者でも仕組みさえ理解すれば使いこなすことが可能である.実際,この研究でもSPSS Decision Trees Version 23(IBM, Tokyo)を利用することで,プログラミングを行わずにモデルを構築している.

構築されたDecision TreeモデルをFig. 1に示す.解析対象症例は592例であり,そのうち87例(14.7%)が腎機能障害を発現した.モデル構築の仕組みと解釈の方法を簡単に説明する.まず,対象となった592例の中で,腎機能障害と最も関連の強い因子が自動的に抽出され,その因子を有するか否かでツリーが枝分かれする(今回はトラフ値15 mg/L以上か否か).続いて,枝分かれ後のサブグループの中で,イベントと最も関連の強い因子が抽出され,2回目の枝分かれが起きる(例えば,トラフ値15 mg/L以上の群における昇圧薬の併用有無).このプロセスを停止基準(あらかじめ設定)に達するまで繰り返すことで,最終的にツリー状のモデルが形成されることとなる.医療従事者はモデルを利用することで,フローチャートの要領で,複数の要因の組み合わせを考慮した副作用発現リスクを定量的に評価できる.例えば,今回提示したモデル(Fig. 1)の場合「トラフ値15 mg/L以上かつ昇圧薬併用例」は腎機能障害の発現割合が69.6%と非常に高リスクなのに対し「トラフ値15 mg/L未満かつフロセミド非併用」の場合4.6%と低リスクであることを読み取ることが可能である.Decision Treeモデルは得られた結果を極めて簡便に解釈できることから,多忙な医療従事者にとってメリットとなると考えている.

Fig. 1. The Decision Tree Model for the Prediction of Vancomycin-associated Nephrotoxicity

YES: with nephrotoxicity, NO: without nephrotoxicity. This figure was cited from J. Eval. Clin. Pract., 23, 1240–1246 (2017).6)

3. 単施設研究における限界とその解決策

上述の研究により,Decision Treeモデルを用いた副作用要因分析の有用性が示された.しかしながら,このモデルには様々な限界が存在する.最も重要な限界の一つに,単施設であるがゆえのモデルの一般化可能性,外挿性の低さが挙げられる.例えば「トラフ値15 mg/L以上かつ昇圧薬併用例」のリスクが極めて高い,という結果である.この研究では大学病院に入院していた患者を対象としたため,超急性期例が一般病院より多い,すなわちバンコマイシンと昇圧薬の併用例が多いものと推察される.つまり,慢性期病院でモデル構築をした場合,本研究の結果が再現されない可能性が十分に考えられる.これは機械学習のみならず,単施設での観察研究に共通する限界である.いずれにせよ,利用者はこの点に十分留意のうえで研究結果を解釈する必要がある.また,Decision Treeモデルはツリーが枝分かれするほど解析対象症例数が減少していくという問題がある.前述のモデル(Fig. 1)では,最終的な枝分かれ後の症例数は最も少ない群で23例であり,信頼性がどこまで担保されるかは議論の余地がある.

ここで筆者のもう一つの研究テーマを紹介する.それは医療ビッグデータを用いた臨床薬学研究である.筆者の研究グループでは,レセプトデータベースを用いて慢性腎臓病患者への非ステロイド性消炎鎮痛薬の処方実態や,VCMやテイコプラニン等のTDMの実施状況を解明してきた.8,9前者の研究における解析対象症例数は224014人であり,施設間バイアスの影響を最小化することに成功している.この経験から,「医療ビッグデータと機械学習法の融合」により,一般化可能な知見が創出できると考えた.

4. 診療情報データベースと機械学習の融合によるアプローチ10)

現在,本邦で利用可能な医療ビッグデータは,医療機関ベース,保険者ベース,調剤薬局ベース並びに自発報告に大別され,それぞれに利点欠点を有する.例えば自発報告データでは有害事象の報告件数が検出できるものの分母情報がない,保険者ベースのレセプトデータでは分母情報が得られるものの臨床検査値が得られない,診断名の正確性が不確定であるため副作用の検出に工夫が必要等(病名や処方を組み合わせる等)が挙げられる.筆者は上述の先行研究における腎機能障害の検出に臨床検査値データを利用していることから,それが取得可能な「医療機関の電子診療録」をベースに構築されたビッグデータの活用が有用と考えた.その中でも約2300万人(2021年4月時点)の患者情報を有する一般社団法人健康・医療・教育情報評価推進機構(Health, Clinic, and Education Information Evaluation Institute: HCEI)が構築・管理している診療情報データベースを活用することとした.

このデータベースを用いて,先行研究と同様に「VCMによる腎機能障害」を対象とし,Decision Treeモデルを用いた要因分析を実施した.併せて,症例数の限界から未解決であった3つのresearch question(RQ)の解決を図った.具体的には,(1)抗酸化作用を有する睡眠導入剤である「ラメルテオン」の併用は腎機能障害リスクを減らすか?(2)病棟薬剤師の関与が腎機能障害リスクを減らすか?(3)VCMとの併用で腎機能障害リスクを上げることが知られている「タゾバクタム/ピペラシリン」だけでなく,「ピペラシリン」併用でも腎機能障害リスクが上がるか?の3点である.

2000年6月から2020年12月にVCMが投与されTDMが実施された18歳以上の患者のうち,除外基準に該当しない患者を対象とした.解析対象症例は7306例であり,医療ビッグデータの活用により,本邦における関連研究の中で最大規模の症例数確保に成功した.構築されたDecision TreeモデルをFig. 2に示す.特筆すべきは,枝分かれ後の最も症例数が少ないサブグループにおいても,156例を確保した点である.さらに,上述の3つのRQを検証するためにロジスティック回帰分析を実施したところ,ラメルテオンと病棟薬剤師の関与がリスクを下げる因子として,ピペラシリンがリスクを上げる因子として抽出された.特にラメルテオンの腎機能障害予防効果についてはドラッグリポジショニングにつながる可能性を有しており,今後基礎・臨床の双方から検証する価値を有するものと考えられる.

Fig. 2. Decision Tree Model Estimating Combinations of Factors Modulating the Risk of Vancomycin-induced Nephrotoxicity

CrCl: creatinine clearance, PIPC-TAZ: piperacillin-tazobactam, VCM: vancomycin, VIN: vancomycin-induced nephrotoxicity. This figure was cited from Br. J. Clin. Pharmacol., 88, 3241–3255 (2022).10)

5. おわりに

このように,機械学習や医療ビッグデータを活用することで,症例数に起因する従来の副作用要因分析の限界の多くを克服可能であり,これまでにない研究成果の創出が期待できる.一方で,医療ビッグデータからでは診療録の詳細な情報,例えば医師や看護師のコメント等のテキストデータは取得できないため,得られる情報に限りがある点は強調しておきたい.特に患者の主観的な症状の直接的な評価は困難である.また,薬剤の投与はすべて「処方データ」に基づくため,実際の投与状況が分からない点も留意が必要である.そのため,RQによっては医療ビッグデータよりも自施設の診療禄を用いる方が適切な場合も十分にあり得る.

また,機械学習が「すごい」という先入観も捨てるべきである.実際,71の研究を対象としたChristodoulouらのシステマティックレビューでは,機械学習の精度が従来の手法であるロジスティック回帰分析よりもかならずしも優れないことを見い出している.11重要なのは「どのようなデータを使って何を解析するか」であり,「どうやって解析するか」の手法の一つに過ぎない機械学習は,適切に使用されなければ無用の長物となる.

今後,機械学習や医療ビッグデータの活用により,臨床に大きなインパクトをもたらす研究成果が創出されていくであろう.ただし,これらは決して「打ち出の小槌」ではなく,研究者・医療従事者双方にリテラシーが求められることをご理解頂けると幸いである.

謝辞

研究遂行にあたり,貴重なデータ提供を賜りましたHCEIに深く感謝申し上げます.医療ビッグデータを用いた共同研究を行って頂きました,昭和大学薬学部病院薬剤学講座 百 賢二先生に謹んで御礼申し上げます.また,研究の遂行にあたり多大なるご支援を賜りました,北海道大学病院薬剤部 武隈 洋先生,北海道大学大学院薬学研究院 菅原 満先生に感謝申し上げます.

これらの研究はJSPS科研費JP20K16035, JP19K23791, 18H00430の助成を受けたものです.

利益相反

開示すべき利益相反はない.

Notes

本総説は,日本薬学会第142年会シンポジウムS31で発表した内容を中心に記述したものである.

REFERENCES
 
© 2023 The Pharmaceutical Society of Japan
feedback
Top