【背景と目的】 回帰モデルを用いた診断や予後予測では,連続量の説明変数をカテゴリ化すれば,予測式をリスクの確率の一覧表で置き換えることができる.しかし,カテゴリ化を行うと通常は説明変数の予測能は下がることになる.そこで,単純に 2 値化するのでなく 3 値化または 4 値化することが考えられるが,これまでのところ多値化のための確立された方法はない.この研究ではまず,(1)予測能をどう定量化するか,(2)何値にカテゴリ化すれば良いか,(3)その場合の最適なカットオフ・ポイントはどこか,という問題に解答を与えるために,
C-index(正常・疾患の両群からそれぞれランダムに標本を選んだときにその値の大小が期待される関係にある確率)を予測能の尺度とした説明変数のカテゴリ化法を提案する.
この方法は,説明変数の母集団分布が既知の場合はそのまま適用できるが,標本データしかない状況では予測能の推定値に無視できないバイアスが生じる.そこで次に,この問題を解決するために「パラメトリックな推定方法」を提案するとともに,その評価を行う.
【方法と結果】 予測能の尺度として
C-index を採用し,最適なカテゴリ化法を数学的に導いた.また,この尺度が説明変数の ROC 曲線下面積と密接な関係にあることを示した.
予測能の推定の際にバイアスが発生するのは,最適カットオフ・ポイントを求める際に予測能の評価を「繰り返し」行うことに原因があると考えられる.そこで,この問題を解決するために,母集団の分布形を想定して,標本から母集団の母数を推定し,推定した正常群と疾患群の説明変数の分布関数から最適カットオフ・ポイントを求め,それを元にカテゴリ化した変数の予測能を推定するというパラメトリックな方法を考案した.この方法を,母集団分布が正規分布,指数分布で表される場合について,モンテカルロ法によるシミュレーションで評価した.その結果,本方法がきわめて有効であることが確認できたので,本方法を実際の疾患の予測に適用した例と合わせて報告する.
抄録全体を表示