ルーチン臨床検査データを用いた予測モデルにおける勾配ブースティング決定木の性能評価

岡本 康幸; 山崎 正晴

doi:10.14948/jami.44.253

抄録

　臨床検査結果のような構造化データを用いた予測モデルでは，アンサンブル学習が最も適した機械学習の手法と考えらえる．そこでわれわれは，ルーチンの臨床検査結果のみを用いて，患者の性別と年齢を予測するためのいくつかのアンサンブルモデルの性能を評価した．その目的で，特徴量として臨床化学検査結果の17項目の変数からなる77,965例のデータセットを用意した．アンサンブルモデルは，LightGBM，XGBoost，CatBoostなどの勾配ブースティング決定木（GBDT）によって構築した．また，SHAP値法を用いて各特徴量の寄与度・重要性を分析した．LightGBM，XGBoost，CatBoostは，性別予測においてそれぞれ0.927，0.927，0.930のROC曲線下面積（AUROC）を達成し，年齢予測においてそれぞれ0.676，0.682，0.690の決定係数を達成した．ロジスティック回帰，サポートベクターマシン（SVM），線形回帰を含む他の機械学習では，性別予測のAUROCはSVMで0.907が最高で，L1正則化を用いた線形回帰では決定係数が0.410に留まった．いずれのGBDT法でもSHAP値の上位4特徴量は，性別予測ではCRE，UA，γGTP，TCであり，年齢予測ではALB，CRE，TC，そしてBUNまたはγGTPであった．これらの結果は，GBDTがルーチンの検査結果のみを用いた生理的状態や基礎疾患の予測に有望であり，診断プロセスに有用であることを示唆している．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）