理学療法学
Online ISSN : 2189-602X
Print ISSN : 0289-3770
ISSN-L : 0289-3770
研究論文(原著)
回復期脳卒中患者における機能的自立度評価法の運動項目予測
—AIモデルと重回帰分析モデルの精度比較—
安部 千秋 小野 圭介森田 和幸髙橋 良輔荒 洋輔阿部 正之白坂 智英
著者情報
ジャーナル オープンアクセス HTML

2026 年 53 巻 2 号 p. 111-119

詳細
要旨

【目的】脳卒中患者の予後予測は重要なテーマであり,近年は統計学的解析に加え,人工知能(Artificial Intelligence:以下,AI)を用いた予測モデルが注目されつつある。本研究の目的は脳卒中患者の回復期リハビリテーション病棟退院時の機能的自立度評価法(Functional Independence Measure:以下,FIM)の運動項目合計(以下,運動FIM)を予測するAIモデルと重回帰分析モデルの精度と誤差特性を検証することである。【方法】498名を対象として,退院時運動FIMを目的変数としたAIモデルと重回帰分析モデルを構築し,交差検証による誤差と精度の比較を行った。【結果】中央絶対誤差はAIモデルで有意に低く,特に残差5点以内の的中率はAIモデルにおいて約40%と重回帰分析モデルを約10%上回った。【結論】本研究で精度が良好であったAIモデルの優位性は非線形性の処理能力や多変量間の複雑な交互作用を自動的に学習できる特性にある。一方で,AIモデルの課題である変数の解釈,透明性などの特性を理解した上で,目的に応じてモデルを選択することが重要である。

Abstract

Objective: Accurate prognostication after stroke is essential for rehabilitation planning and discharge support. Predictive models based on artificial intelligence (AI) have recently gained attention as alternatives or complements to conventional statistical approaches. This study compared an AI model with a multiple regression model for predicting discharge motor Functional Independence Measure (FIM) scores in patients with stroke in a recovery-phase rehabilitation ward.

Methods: We included 498 patients with stroke. An AI model and a multiple regression model were developed to predict discharge motor FIM scores, and model performance was evaluated using cross-validation.

Results: The AI model achieved a significantly lower median absolute error than the regression model (p<0.001). In addition, approximately 40% of AI predictions were within five points of the observed discharge motor FIM score, approximately 10% higher than the regression model.

Conclusion: These findings suggest that AI models, which demonstrated good accuracy in this study, may provide superior predictive performance in this setting by capturing nonlinear relationships and complex interactions among variables. However, interpretability and transparency remain important limitations. AI and conventional statistical models should therefore be regarded as complementary tools, depending on the clinical purpose and context.

はじめに

近年,世界的に高齢者の割合が増加し,今後50年間はさらに増加の一途を辿ると予測されている1。また,脳卒中の発症率は世界的に増加しており2,日本における脳卒中の年齢調整罹患率は,人口10万人あたり166人と報告されている3。日本では2000年に回復期リハビリテーション病棟(以下,回復期病棟)が設立され,急性期治療が終了した脳卒中患者はこの病棟への入院により,1日最大3時間まで毎日リハビリテーションを受けることが可能となっている。回復期病棟は最大180日間の入院が可能であり,患者の機能改善や在宅復帰率の向上に大きく寄与している45

回復期脳卒中患者の日常生活活動(Activities of Daily Living:以下,ADL)能力の予後予測は適切なリハビリテーション計画の立案6や家族への情報提供,環境調整において有益であり,患者を取り巻く環境を考慮した個別性の高い予測が求められる。ADLを評価する指標のひとつとして,自立度を示す尺度である機能的自立度評価法(Functional Independence Measure:以下,FIM)は多岐にわたる疾患で用いられている。特に,脳卒中患者における退院時のFIMの予後予測では入院時のFIM717や年齢715,発症から回復期病棟入院までの日数713,脳出血か否か79,National Institute of Health Stroke Scale715や,脳損傷の程度1617,など多くの説明変数の検討がなされている。予測の方法はこれまで,重回帰分析や決定木分析などの統計学的解析891118が一般的であった。しかし,重回帰分析は直線性を仮定しており,非線形関係や変数同士の交互作用を捉えきれない19ことや,決定木分析においては僅かなデータの違いにより全く異なる木が生成され,再現性が乏しくなること20が特徴として挙げられる。

一方で,予測においては人工知能(Artificial Intelligence:以下,AI)が注目されており,これは医療分野においても例外ではなく研究と応用は近年大きく発展している21。特に生存率・死亡率予測などの二値分類は従来のロジスティック回帰分析よりも精度が高いことが報告されている2224

AIは多くのデータからパターンや規則性を学習・実行する手法であり,さまざまな種類の機械学習を包含している。機械学習において最も多いのは生物の神経細胞のシステムに着想を得た数学モデルであるニューラルネットワークであり,複数のデータの抽出と合成を何層にも重ねたモデルを利用することで,非線形パターンであっても高度に認識することができる25

近年では,データセットからAIによる分析が容易に可能となるPrediction One(ソニーネットワークコミュニケーションズ株式会社)を用いた予後予測が複数報告されている2629。Prediction Oneは過去のデータを投入し,ニューラルネットワーク・勾配ブースティング木のアンサンブルモデルを採用した機械学習により予測モデルの構築を自動的に行うAI予測分析ツールのソフトウェアである。モデルの構築過程が追跡困難である短所がある一方で,ライセンスを取得していれば専門知識を要さずに誰でも容易に利用でき,モデルの作成と予測が可能である点が大きな長所である。

AIを用いたFIMの予後予測については,脳卒中患者2627や大腿骨骨折後患者30,脊髄損傷患者31といった多くの疾患に対して検証されている。

これらの統計やAIによる予測モデルは訓練データを用いて作成し,テストデータにおいて予測精度を検証することが一般的である。また,評価性能は曲線下面積(Area Under the Curve:AUC)や決定係数により行われる。しかし,訓練データにより作成したモデルを単一のテストデータを用いて検証することにより偶発的な過剰適合や過学習の検出が困難となるリスクがある。そこで,過学習や不安定なモデルではないことを確認するため,交差検証が有効とされている。退院時のFIMの運動項目(以下,運動FIM)の数値予測に関する先行研究では,重回帰分析とAI分析において過学習を考慮した交差検証(Cross-validation)による予測精度検証や未知データの予測誤差の特性に関する比較検討は十分になされていない。

本研究の目的は,回復期病棟において脳卒中患者の退院時の運動FIMスコアを予測するにあたり,重回帰分析とAI分析によって構築された予測モデルの精度および誤差特性を交差検証により比較検討することである。これにより,両手法の臨床応用における利点と限界を明確にし,個別的かつ信頼性の高い予後予測の構築に貢献することを目指す。

対象および方法

1. 研究デザイン

本研究は十勝リハビリテーションセンター(以下,当センター)のリハビリテーションデータベースを用いた後ろ向きコホート研究である。当センターに入院したすべての患者の基本情報や定期的な機能評価を一元管理したデータベースシステムを用いた。本研究で用いているFIMは運動項目13項目,認知項目5項目の合計18項目で構成されている。各項目は1点(全介助)から7点(自立)でスコアリングされ,評価者間信頼性,内的一貫性,構成概念妥当性が検証されている3133。文化背景に即した適切な修正が加えられている日本語版のFIM version3.0™を使用した3437

2. 対象者

本研究の対象者は当センターの回復期病棟に入院した脳卒中患者498名である。基本属性は表1に示す。

表1 対象者基本属性

患者属性(N=498)
年齢75.8±11.8歳
性別男性:女性=283:215 [56.8%: 43.2%]
脳卒中タイプ(出血・梗塞)出血:梗塞=363:135 [72.3%: 27.7%]
発症から入院までの日数27.6±15.8日
入院時運動FIM43 [23–59]
入院時認知FIM22 [14–29]
入院時FIM合計67 [38–86]
退院時運動FIM79 [51–88]

本研究の対象者属性を平均±標準偏差,あるいは中央値[四分位範囲]にて表記している.

FIM: Functional Independence Measure.

運動FIM: FIMの運動項目,認知FIM: FIMの認知項目.

取り込み基準は(1)2021年4月から2023年3月までに入院した脳卒中患者,(2)発症から回復期病棟入院までの日数が4日以上,(3)在院日数が180日以内であることとした。

除外基準は(1)くも膜下出血患者,(2)急変による退院あるいは死亡,(3)データベース上の必要情報が不完全であることとした。

本研究プロトコルはヘルシンキ宣言(2013年改訂)を遵守し,社会医療法人北斗の倫理審査委員会の承認(社会医療法人北斗 医の倫理審査委員会 第1119号)を得て実施した。

3. AIモデルと重回帰分析モデルの作成

最初に目的変数を回復期病棟退院時の運動FIMに設定し,説明変数を年齢・性別・脳卒中タイプ(出血/梗塞)・発症から回復期病棟入院までの日数・回復期病棟入院時の運動FIM・認知FIMとした。

次に目的変数と説明変数の関係性を明らかにし,説明変数の調整を行うため,モデル選択時に予測性能が最大化されるよう設計されているAkaike情報量基準(Akaike Information Criterion:以下,AIC)38を指標としたStepwise法による重回帰分析を実施した。説明変数の選択には変数減少法を適用し,選択された変数を両方のモデルに用いた。また,目的変数において推定された残差の正規性をShapiro-Wilk testにて確認した。統計解析にはRを使用し,AIモデルの検証にはAI予測分析ツールであるPrediction Oneを用いた。本ツールは自動モデリングにより変数の自動調整や標準化を行い,搭載された複数のアルゴリズムから勾配ブースティング木のアンサンブルモデルを用いて最適な予測モデルを構築するツールである。

4. 精度検証

各モデルにおいて目的変数を運動FIMとして,説明変数の影響を評価した。モデルの一般化性能を評価するためにk分割交差検証を用いた。この検証方法は回帰モデルや機械学習モデルといった多くのモデルにおける精度評価に有用である39。k分割交差検証ではデータをk個のサブセット(Fold)に分割し,(k−1)個のサブセットをモデル作成の訓練データ,残りの1つをテストデータとして用いる。本研究ではk=5の5分割交差検証を採用し,全データの80%の訓練データでモデルを作成し,残りの20%のテストデータにて精度検証を行う。この作業を5パターンのすべての組み合わせで実施し,平均化することでモデルの評価を行う(図1)。

図1 5分割交差検証の模式図

すべてのデータを無作為に5分割し,それぞれ80%をモデル作成,20%を精度検証に割り付けている.

各モデルの運動FIMの精度確認に用いた指標は,モデルの決定係数(R2),相関係数(R),予測値と実測値の残差の絶対値から算出した中央絶対誤差(Median Absolute Error:以下,MedAE),二乗平均平方根誤差(Root Mean Squared Error:以下,RMSE),残差5点以内・10点以内の的中率をそれぞれ算出した。各モデルの残差の絶対値はWilcoxon符号付き順位検定にて比較した。本研究のすべての統計解析の有意水準は5%とした。

結果

1. 対象の属性

本研究の対象者の基本属性を表1に示す。年齢は75.8±11.8歳,発症から回復期病棟入院までの日数は27.6±15.8日であった。入院時の運動FIMの中央値[四分位範囲(Interquartile Range:IQR)]は43[23–59],回復期病棟退院時の運動FIMは79[51–88]であった。

2. 採用された説明変数

498名を対象として退院時の運動FIMを目的変数とした重回帰分析において,残差の正規性をShapiro-Wilk検定で確認した結果,残差の正規性が認められた(W=0.996, p=0.316)。本解析における最適なモデルとして,以下の説明変数(年齢,発症から入院までの日数,入院時運動FIM,入院時認知FIM)が選択された。性別・脳卒中タイプ(出血/梗塞)は今回のモデルからは除外された。

回帰式は以下の通りである:

退院時運動FIM=入院時運動FIM×0.56+入院時認知FIM×0.97−年齢×0.26−発症から入院前の日数×0.16+47.2

本モデルのAIC値は2624.29であり,選択前のモデル(AIC=2628)と比較して情報量基準の改善が見られた。選択された変数の解析結果を表2に示す。また,多重共線性の評価として分散膨張係数(Variance Inflation Factor:以下,VIF)を算出した結果,すべてVIF <5であり,多重共線性の影響は軽微であると判断した。また,AIモデルにおける各変数の寄与度は入院時運動FIMが最も寄与し,ついで認知FIM,年齢の順であった(図2)。

表2 重回帰分析により最終的に選択された説明変数の解析結果

変数偏回帰係数標準誤差t値p値
切片47.185.48
入院時認知FIM合計0.970.118.66<0.001***
入院時運動FIM合計0.560.0511.93<0.001***
年齢−0.260.06−4.54<0.001***
発症から回復期病棟入院までの日数−0.160.04−4.06<0.001***

FIM: Functional Independence Measure.

運動FIM: FIMの運動項目,認知FIM: FIMの認知項目.

図2 AIモデルにおける説明変数の寄与度

本AIツールにおける退院時運動FIMの予測に対する各変数の寄与度を示している.入院時運動FIMがすべての変数で一番高い寄与度となっている.

3. 各モデルの精度指標

各モデルの交差検証から算出された平均決定係数はAIモデル:0.715,重回帰分析モデル:0.699,相関係数はAIモデル:0.846,重回帰分析モデル:0.836, MedAEはAIモデル:6.64[2.63–14.13],重回帰分析モデル:8.85[4.56–15.95]であった。予測値と実際の退院時FIMの残差の絶対値はAIモデルが有意に低値であった(Z=−5.04, r=0.23, p<0.001)。RMSEはAIモデル:13.40,重回帰分析モデル13.94であり(表3, 4),残差5点以内の的中率はAIモデル:39.8%,重回帰分析モデル:29.1%であった。各モデルにおける残差分布のカーネル密度プロット(図3)ではAIモデルは残差0点付近に分布が集中し,重回帰分析モデルは左右に残差のばらつきが認められた。また,予測値と実測値の二次元プロット(図4)では重回帰分析モデルにおいて,退院時運動FIMが30点未満の重度症例に対して予測値の過大傾向が認められた。一方,AIモデルは実測値との乖離が一部のデータで小さく,より実測に近い予測を示した。

表3 各モデルにおけるFoldごとの中央絶対誤差

FoldAIモデル重回帰分析モデル
15.7610.14
26.249.16
311.3611.93
411.177.97
513.5416.09
MedAE6.648.85
IQR2.63–14.134.56–15.95

MedAE:Median Absolute Error(中央絶対誤差),IQR:Interquartile Range(四分位範囲).

表4 各モデルにおけるFoldごとの決定係数とRMSE

FoldAIモデル重回帰モデル
R2RMSER2RMSE
10.7467.690.69711.92
20.7418.810.70211.48
30.70416.690.69716.26
40.65513.610.69810.06
50.73117.190.70018.18
平均0.71513.400.69913.94
標準偏差0.0340.002

RMSE:Root Mean Squared Error(二乗平均平方根誤差),R2:決定係数.

図3 各モデルのカーネル密度プロット

AIモデル(黒線)と重回帰分析モデル(灰線)の残差(予測−実際の運動FIM)と確率密度を示す.AIモデルにて残差0点付近の分布が多く,重回帰分析モデルはやや左右方向へ拡散しており,残差のばらつきを視覚的に示している.

図4 各モデルの退院時運動FIMの予測値と実測値の二次元プロット

AIモデル(A)と重回帰分析モデル(B)の退院時運動FIMを二次元プロットにて示し,退院時重度症例(実線)と中等度症例(破線)を分けて示す.重回帰分析モデルでは重度症例(実際の退院時運動FIM<30)で予測値の過大傾向が認められたのに対し,AIモデルではより実測値に近い分布を示している.

考察

本研究では,回復期病棟に入院した脳卒中患者を対象に,退院時の運動FIMスコアを予測するAIモデルおよび重回帰分析モデルを構築し,交差検証による予測精度と誤差特性の比較検討を行った。その結果,AIモデルは決定係数,相関係数,RMSEにおいて僅かに上回ったが,おおむね同程度であった。MedAEは有意に低値を示したが効果量は小さかった。一方,残差5点以内の的中率ではAIモデルが重回帰分析モデルを10%上回り,カーネル密度プロットではAIモデルは誤差が0付近に集中して安定していることが視覚的に示された。これにより,AIモデルは重回帰分析モデルと比較して同等または僅かに優れる予測性能を示したものの臨床的意義は限定的であった。

重回帰分析は線形性を仮定しており,平均値傾向に強く適合する40ため,重度症例の予測誤差が大きくなった可能性がある。実際に,本研究の二次元プロット(図4)では退院時の運動FIMが13~30点の重度症例領域において,重回帰分析モデルが予測値の過大傾向が確認された。

ただし,AIモデルにおいても“平均への引き戻しバイアス(central tendency warped bias)”が生じることには留意する必要がある。これは,小さな予測値が平均付近に引き寄せられるバイアスであり,回帰モデルに内在する課題41である。

また,本研究において変数選択に用いたStepwise法は一般的な手法であるが,データ依存性による過学習のリスクを伴う。そのため本研究は,5分割交差検証により汎化性能を評価し,リスクの低減を図っている。本研究で選択された予測因子は,入院時運動・認知FIM,年齢,発症から入院までの日数であり,これらは過去の先行研究とも整合する717。入院時FIMは身体・認知機能の反映指標として有用であると考えられる。また,年齢や発症から入院までの日数は,FIMの改善度のみならず上肢機能・歩行機能予測にも重要な変数として報告されている4245

一方で,本研究では性別および脳卒中タイプは予測モデルにおいて有意な説明変数とはならなかった。Stepwise法を行う前に全変数を強制投入したモデルにおいて,性別の偏回帰係数はβ=0.516(p=0.730),脳卒中タイプはβ=0.570(p=0.744)と,統計学的有意性を欠いていた。既存のシステマティックレビューによれば,性別を有意変数とした研究は20報中5報(25%),脳卒中タイプでは12報中6報(50%)であり7,急性期における研究では脳出血患者が脳梗塞患者よりADLやバランス機能の改善が大きいこと4647が報告されている。また,合計FIMが60点以下の脳出血患者は脳梗塞患者よりFIMの改善が大きいものの,退院時のFIMには差異を認めなかった48とする報告もある。以上より,回復期においては脳卒中タイプや性別の影響は相対的に小さい可能性があり,本研究結果とも整合すると考える。

また,56のFIMに関する研究を包括したシステマティックレビューでは退院時FIMの決定係数の平均値は0.65(範囲:0.35–0.82)であったと報告されている7。本研究の決定係数はAIモデルで0.715,重回帰分析モデルで0.699であったことから,精度の観点では本研究のモデルは妥当であると考えられる。

AIモデルが重回帰分析モデルを上回る精度を示した背景として,AIの非線形性の処理能力や多変量間の複雑な交互作用を自動的に学習できる特性4950が挙げられる。重回帰分析は変数間の直線関係を前提とするため,非線形的な関連性や多変量間の交互作用には適応しにくい。一方でAIは,仮定不要で投入されたデータから構造的パターンを抽出可能であり,柔軟かつ高度なモデル構築が可能である51

また,本研究で用いたAIツールであるPrediction Oneの特徴として,専門的なプログラミング知識を要さずとも,簡便に予測モデルを構築できる点は,技術的導入の容易さという観点から臨床応用において有用である。実際,リハビリテーション分野における先行研究でも本AIツールを用いた高い精度の予測結果2629が報告されており,本研究結果もこれを支持する。一方で,ツール固有のアルゴリズム設定に依存するため,結果の一般化には留意が必要であり,臨床導入には交差検証などによる外的妥当性の検証が望まれる。

さらに本研究では,モデルの汎化性能を評価するために交差検証を採用した。先行研究の多くは単一の検証セットを用いており,偶然のデータ特性に依存した過学習のリスクがある。本研究では,すべてのサブセット(Fold)において予測性能を評価することで,過学習を回避し,安定したモデル精度の担保39を試みた。各Fold間の標準偏差も小さく,モデルの安定性が一定程度確保されていたと考えられる。

臨床的視点からも,MedAEや5点以内の的中率といった直感的で実用的な指標によりモデルの評価を行った点は意義深い。特に,AIモデルの的中率(約40%)が重回帰分析モデル(約29%)を上回った点は,実際の患者・家族への予後説明において信頼性を高めるものであり,臨床的価値が高い。

ただし,AIモデルには解釈性の低さという課題が残る。解析過程がブラックボックスであるために臨床判断やリスクの高い意思決定において慎重な適用が求められる5253。本研究で扱うADL予測は,患者や家族への情報提供という観点からも重要な判断材料であり,AIを用いた予測は臨床判断を支援する手段として位置づけられる。そのため,AIモデルの活用にあたっては,モデルの精度を適切なデザインで検証し,実用上許容される誤差範囲であるかを確認することが重要であると考える。

一方で,重回帰分析は各変数の偏回帰係数によって影響の大きさを定量的に可視化できる点で,仮説検証や臨床的な解釈に優れた利点を有する54。したがって,本研究はAIによる予測が従来の重回帰分析に取って代わることを示すものではなく,両者は解析目的に応じて相補的に活用されるべきである。

すなわち,要因の寄与や理論的検証を目的とする場合には重回帰分析モデルを,臨床現場における高精度な予後予測や意思決定支援を目的とする場合にはAIモデルを活用することが望ましい。これにより,解釈性と精度の双方を両立した臨床応用が可能になると考える。また,本研究は単一施設データに基づいており,地域特性やリハビリテーション提供体制の差異による影響を完全には排除できない。今後は,多施設共同研究による汎化性能の検証が求められる。

結論

本研究は,回復期病棟に入院した脳卒中患者の退院時運動FIMスコアの予測をAIと重回帰分析モデルにより行い,モデル精度を交差検証により評価した。その結果,AIを用いた予測モデルは重回帰分析モデルと比較して同等以上の精度を示し,特に残差5点以内の的中率において優位性を示した。これにより,AIは予後予測の精度向上や臨床現場での実用性に貢献しうることが示唆された。一方で,解釈性や外的妥当性の課題が残るため,今後は多施設共同研究やモデルの可視化を通じた改善が求められる。

利益相反

本研究において,開示すべき利益相反はない。

文献
 
© 2026 日本理学療法学会連合

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja
feedback
Top