腎機能評価として多用されている血清クレアチニン値による推算糸球体濾過量(eGFRcre)は筋肉量の影響を受けることが知られている。筋肉量の影響が考慮される症例については血清シスタチンC値によるeGFRcysが推奨されるが,保険請求上の制限やコスト面で課題がある。本研究では汎用臨床検査値を用いて筋肉量の影響を受けにくい腎機能評価方法を開発することを目的とした。11,921件の検査データを対象とし,学習データと検証データとして8:2に分割した。機械学習モデルはLasso回帰分析による特徴量の選択を行い,15項目の特徴量による8つのモデルを作成し,平均二乗誤差の最も優れたモデルを機械学習によるGFR予測モデル(eGFRml)とした。検証データについてeGFRmlを算出しeGFRcysとの比較を行ったところ,相関係数r = 0.939,誤差の許容範囲−19.0から4.4 mL/min/1.73 m2であった。CKD重症度分類GFR区分における全体一致率は77.3%であり,いずれも血清クレアチニンを使用したeGFRcreに比較し飛躍的な向上を認めた。本研究により汎用臨床検査値からeGFRcysにより近似した値を予測できることで,高コストなeGFRcysよりも効率的に,筋肉量などの影響を受けやすいeGFRcreよりも効果的に腎機能評価を行える方法となることが示唆できる。
Serum cystatin C-based estimated glomerular filtration rate (eGFRcys) is recommended for cases considering the influence of muscle mass, but it faces limitations in costs. We aimed to develop a renal function evaluation method that is less influenced by muscle mass using commonly available clinical test values. We collected data from 11,921 cases with measurements of eGFRcys, along with gender, age, and values of 17 general clinical test items. The dataset was divided into training and validation sets with an 8:2 ratio. Using Lasso regression analysis, we performed feature selection and created eight models by discarding four variables and keeping 15 selected features. After parameter tuning, the models underwent 10-fold cross-validation, and we calculated their average mean squared error. The extreme-gradient-boosting regression model with the lowest mean squared error was selected as the machine learning-based glomerular filtration rate (GFR) prediction model, referred to as eGFRml. We computed eGFRml for the validation data and compared it with eGFRcys, resulting in a correlation coefficient of r = 0.939 and an error range of −19.0 to 4.4 mL/min/1.73 m2. Furthermore, the agreement rates for classifying GFR categories in chronic kidney disease severity ranged from 69.6% to 82.5%, with an overall agreement rate of 77.3%. These results indicate a significant improvement compared to eGFRcre, which utilizes serum creatinine. Our study successfully developed a method to efficiently evaluate renal function by predicting eGFRcys-approximated values using commonly available clinical test values, providing a more effective alternative to eGFRcre, which is influenced by factors such as muscle mass.
我が国における2021年の総人口に占める65歳以上の割合は28.9%であり,世界で最も高齢化率が高い1)。高齢化による社会的課題の一つに医療費の高騰が挙げられる。なかでも腎機能悪化の終末像である人工透析療法を必要とする患者数は年々増加しており,本邦における人工透析療法にかかる医療費は年間1兆6000億円,総医療費の約4%を占めるとされている2)。そのため,腎機能低下は人工透析療法を必要とする末期腎不全への移行だけでなく,治療薬選択の障害になるなど,QOLへの悪影響に繋がることが危惧される。また,近年健康長寿を妨げる要因となるサルコペニアも問題となっている3)。サルコペニアは筋肉量の顕著の低下を認めるため,腎機能評価に汎用されているクレアチニン(creatinine; cre)による推定糸球体濾過量(estimated glomerular filtration rate; eGFRcre)では過小評価となる危険性がある4)。過小評価が疑われる症例ではシスタチンC(cystatin-C; cys)の測定ならびにCys-CによるeGFR(eGFRcys)が有効とされている。しかしながら,Cys-C測定は一般的にCreよりも費用が高く,本邦では3ヶ月に1度の保険請求しかできないという欠点を有する。そのため,eGFRcysよりも効率的かつeGFRcreよりも効果的な腎機能評価方法が必要である。
一方,近年コンピュータの進化やPythonやRに代表されるオープンソースソフトウェアの充実に伴い,機械学習が急速に発展した。機械学習はマーケティングやファイナンスなど様々な分野での活用が積極的に進められ,有用な実績や製品が続々と発表されている。機械学習の主目的は「予測」であり,統計分析やデータエンジニアリングの組み合わせにより構成されている。今回我々は汎用臨床検査値から機械学習的手法を活用し,eGFRcysにより近い腎機能評価方法を開発することを目的とした。
2018年1月~2022年12月に岐阜大学医学部附属病院にて,Table 1に示す患者情報および臨床検査項目およびCys-C測定を全て行った18歳以上の検査データ(N = 11,921)を対象とした。
Sex |
Age |
Serum: |
Sodium (Na) |
Potassium (K) |
Chloride (Cl) |
Total protein (TP) |
Albumin (Alb) |
Creatine kinase (CK) |
Aspartate aminotransferase (AST) |
Alanine aminotransferase (ALT) |
Lactate dehydrogenase (LD) |
Creatinine (Cre) |
Blood urea nitrogen (UN) |
Whole blood: |
White blood cell count (WBC) |
Red blood cell count (RBC) |
Hemoglobin (Hb) |
Hematocrit (Hct) |
Red cell distribution width coefficient of variation (RDWCV) |
Platelet count (PLT) |
データの前処理及び機械学習,予測はPython 3.9.18を用いて実施した。対象データはPythonにて無作為に8:2の学習データと検証データに分け,機械学習に用いる特徴量の選択にはscikit-learn 1.1.1のLasso回帰分析モデルを用いた。機械学習はeGFRcysを正解データとしてTable 2に示す線形回帰手法2種,ツリー系回帰手法2種,勾配ブースティング回帰手法2種,サポートベクターマシン回帰手法1種,ニューラルネットワーク回帰手法1種を用いた。また,予測されたデータの解析(相関係数,回帰式,一致性の検定)は統計解析ソフトウェア JMP 13.2.1を用いて行った。eGFRcreならびにeGFRcysの算出はエビデンスに基づくCKD診療ガイドライン2018に則って行った。
Machine learning library (version) |
|
---|---|
Linear regression methods: | |
Least Squares Regression (LSR) | scikit-learn (1.1.1) |
Ridge Regression (RiR) | scikit-learn (1.1.1) |
Tree-based regression methods: | |
Decision Tree Regression (DTR) | scikit-learn (1.1.1) |
Random Forest Regression (RFR) | scikit-learn (1.1.1) |
Gradient boosting regression methods: | |
Light Gradient Boosting Machine Regression (LGR) | lightgbm (3.3.2) |
Extreme Gradient Boosting Regression (XGR) | xgboost (1.5.1) |
Support Vector Machine regression method: | |
Support Vector Machine Regression (SVR) | scikit-learn (1.1.1) |
Deep Neural Network regression method: | |
Deep Neural Network Regression (DNR) | keras (2.9.0) |
学習データの年齢,臨床検査項目はscikit-learnの機能の一つであるstandardscalerを用いて(元の値 − 平均)/標準偏差による標準化を施した。また,性別は男性1,女性0に置換した。
2) 機械学習用特徴量の選択ノイズとなる可能性の高い特徴量を除外するため,学習データのeGFRcysに対するLasso回帰分析モデルを作成し,特徴量の選択を行った。Lasso回帰分析モデル用のパラメータはscikit-learnのグリッドサーチによる調整を行った後,各特徴量の係数を算出し,係数が10−6未満となったAST,ALT,LD,RBC以外の特徴量を選択した。
3) 機械学習モデルの作成eGFRcysを目標値とした機械学習モデルの作成はscikit-learnを用いてグリッドサーチによる各モデルのパラメータチューニングを行った上で,平均二乗誤差(mean squared error; MSE)による10分割交差検証を行った。その結果,XGRモデルのMSEが最も低値であった(Figure 1)。そのため,XGRによる機械学習モデルをeGFR machine learning(eGFRml)とした。また,XGRモデルにおける特徴量重要度はeGFRcreで用いられるCre,Age,Sexの他にUN,CK,Albが上位であった(Figure 2)。
eGFRcys, estimated glomerular filtration rate using cystatin C; LSR, least squares regression; RiR, ridge regression; DTR, decision tree regression; RFR, random forest regression; LGR, light gradient boosting machine regression; XGR, extreme gradient boosting regression; SVR, support vector machine regression; DNR, deep neural network regression.
XGR, extreme gradient boosting regression; eGFRcys, estimated glomerular filtration rate using cystatin C.
検証データについて学習モデルを基準に標準化を施し,eGFRmlによる予測値を算出した。その結果,eGFRcys(y)とeGFRcre(x)が相関係数(r)= 0.663,回帰式 y = 0.72x + 19.8,誤差の許容範囲(limit of agreement; LOA)−39.7~4.6であった。それに対し,eGFRmlはr = 0.939,y = 0.82x + 1.41,LOA −19.0~4.4であった(Figure 3)。また,慢性腎臓病(chronic kidney disease; CKD)の重症度分類に用いられるGFR区分に従い,eGFRcysならびにeGFRcre,eGFRmlそれぞれに基づき分類し,eGFRcysによるGFR区分を基準とした一致率および一致率の指標であるカッパ係数(kappa)の算出を行った。その結果,eGFRcysとeGFRcreの一致率は全体一致率51.4%(G1 43.6%,G2 64.5%,G3a 52.8%,G3b 53.3%,G4 69.5%,G5 55.0%),kappa 0.35であり,eGFRmlの全体一致率は77.3%(G1 71.0%,G2 82.5%,G3a 76.6%,G3b 76.3%,G4 70.6%,G5 69.6%),kappa 0.70であった(Figure 4)。さらに,性別,年齢の五分位,Creの五分位別に解析を行った。eGFRcre,eGFRmlともに性別によるGFR分類の一致度に差は見られなかったが,年齢五分位別の評価ではeGFRcreがkappa 0.27~0.45であったのに対し,eGFRmlではkappa 0.63~0.73と比較的安定した一致度を示した。また,Cre五分位による一致度はeGFRcreで0.14~0.33,eGFRmlで0.60~0.72であった(Table 3)。
A: Baland-Altman plots between eGFRcre and eGFRcys
B: Scatter plots between eGFRcre and eGFRcys
C: Baland-Altman plots between eGFRml and eGFRcys
D: Scatter plots between eGFRml and eGFRcys
eGFRcys, estimated glomerular filtration rate using cystatin C; eGFRcre, estimated glomerular filtration rate using serum creatinine; eGFRml, estimated glomerular filtration rate using machine learning (extreme gradient boosting regression model).
A: Agreement between eGFRcys and eGFRcre
B: Agreement between eGFRcys and eGFRml
Bold lines indicate categories where eGFRcys and eGFRcre or eGFRcys decisions matched.
eGFRcys, estimated glomerular filtration rate using cystatin C; eGFRcre, estimated glomerular filtration rate using serum creatinine; eGFRml, estimated glomerular filtration rate using machine learning (extreme gradient boosting regression model).
eGFRcre | eGFRml | |||
---|---|---|---|---|
Concoradance rate | Kappa | Concoradance rate | Kappa | |
Sex | ||||
Male | 52.4% (518/471) | 0.34 | 77.7% (768/221) | 0.69 |
Female | 50.6% (707/689) | 0.37 | 77.0% (1,075/321) | 0.70 |
Age (years) | ||||
Q1 (18–57) | 46.8% (223/254) | 0.28 | 78.6% (375/102) | 0.70 |
Q2 (58–67) | 48.2% (192/206) | 0.27 | 74.6% (297/101) | 0.63 |
Q3 (68–74) | 51.7% (279/261) | 0.31 | 75.7% (409/131) | 0.63 |
Q4 (75–79) | 60.1% (264/175) | 0.45 | 76.5% (336/103) | 0.67 |
Q5 (≥ 80) | 50.4% (267/263) | 0.34 | 80.2% (425/105) | 0.73 |
Serum creatinine (mg/dL) | ||||
Q1 (< 0.65) | 51.3% (229/217) | 0.14 | 77.8% (347/99) | 0.62 |
Q2 (0.66–0.79) | 54.0% (255/217) | 0.27 | 73.5% (347/125) | 0.60 |
Q3 (0.80–0.95) | 53.3% (255/223) | 0.26 | 77.2% (369/109) | 0.66 |
Q4 (0.96–1.18) | 43.5% (219/284) | 0.18 | 77.5% (390/113) | 0.69 |
Q5 (≥ 1.19) | 54.8% (266/219) | 0.33 | 80.2% (389/96) | 0.72 |
eGFRcre, estimated glomerular filtration rate using serum creatinine; eGFRml, estimated glomerular filtration rate using machine learning (extreme gradient boosting regression model); Q1–Q5, quintile.
本研究では性別,年齢および汎用臨床検査17項目を用いた機械学習による腎機能評価方法として,eGFRmlを開発した。eGFRcysを基準として,機械学習用特徴量の選択,交差検証を用いた機械学習モデルの選択を行い,検証データによる評価を行った。その結果,eGFRcreに比較し優れたeGFRcysとの相関性ならびに一致度が確認された。本結果よりCys-Cを測定せずにeGFRcysに近い評価が可能である。本研究ではいくつかの制限が考えられる。今回の研究に用いた対象データは一つの医療機関から得られたデータのみを用いている。我々は以前,機械学習の適応性がデータセットの特徴の違いに影響を受けることを報告している5)。本モデルにおいても患者背景や医療機関の特徴によって適合しない可能性がある。また,筋肉量の影響を受けにくい腎機能評価指標としてeGFRcysを目標値としたが,実際には筋肉量に関わる評価を行っていない点は今後の課題である。しかしながら,本モデルを使用することによりeGFRcreで過小評価される症例の検知に寄与することが推測される。
腎機能評価にはGFRが用いられるが精密な測定方法であるイヌリンクリアランスは侵襲性が高く,煩雑であるため,日常診療には不向きである6)。GFRを推定する方法としては,CreやCys-C,もしくは両者を使用した方法が報告されている。特にCKDガイドラインに記載されている日本人向けのeGFRcreが汎用されており,筋肉量などによるCreの影響が疑われる場合にはeGFRcysの使用が推奨されている7)。しかしながら,保険請求やコスト面から汎用性はあまり高くない。機械学習を活用した腎機能低下予測モデル8),9)が既に報告されているが,GFRを推定しようとする試みは多くない。本研究では多種の機械学習から最適なモデルを選択するプロセスをとっているため,より精度の高い機械学習モデルが開発できたと考えられる。本モデルの特徴量重要度として,eGFRcreで使用されるCre,年齢,性別の他に,UNやCKなども上位となった明確な理由は不明であるが,筋肉や蛋白代謝に起因する可能性が考えられ,とても興味深い結果である。また,今回開発したeGFRmlは特にCKD重症度分類のGFR区分におけるG2~G3bの一致率が高く,早期CKD検出に寄与することが考えられる。eGFRcreでは年齢の五分位別の解析において75~79歳のカテゴリの一致率60.1%がピークであったのに対し,eGFRmlは比較的安定した一致率となった。eGFRmlは年齢に関係なく,よりeGFRcysに近い推定を汎用臨床検査項目だけで行えることが示唆された。今後は本モデルが筋肉量の影響をどれだけ回避できるかを検証するとともに,日常使用される臨床検査システムでの適用方法の検討も行っていく必要があると考えられる。
近年機械学習の臨床応用については診断予測や重症化予測など様々な報告がなされているが10),臨床検査分野での報告はあまり多くない。本研究が機械学習,さらにデータサイエンスの臨床検査への活用の促進の一助となることを期待する。
本研究では機械学習的手法を活用し,筋肉量の影響を受けにくいeGFRcysをCys-Cを測定せずに汎用臨床検査項目のみで予測するモデルの構築を行った。本モデルはeGFRcreに比較しeGFRcysとの一致率が飛躍的に向上したことから,eGFRcreで過小評価となっている症例の検出に寄与するものと考えられる。
本研究は岐阜大学大学院医学系研究科医学研究等倫理審査委員会の承認を得て行った(承認番号:2022-086)。
本論文に関連し,開示すべきCOI 状態にある企業等はありません。
本研究を行うにあたり,ご支援いただいた岐阜大学医学部附属病院検査部 大倉宏之部長はじめ,検査部のスタッフ,Laboratory Data-Science研究会のコーディネーター・アドバイザーの先生方に感謝申し上げます。