2026 年 75 巻 2 号 p. 243-251
【背景】マイクロサテライト不安定性検査(MSI検査)は,マイクロサテライトの繰り返し回数の変化を調べる検査であり,フラグメント解析にて波形を解析する。解析処理は煩雑で労力を要し,目視判定のためヒューマンエラーが生じる可能性もある。そこで我々は機械学習モデルを作成し,MSI検査におけるAIによる自動判定の有用性について検討した。【方法】2020年6月~2022年12月の間に当院でMSI検査を実施した446例のうち,150例を学習用データ,296例を検証用データとして使用した。機械学習モデルにはLocal Outlier Factor(LOF)手法とAuto Encoder(AE)手法を採用し,学習データ数50例,100例,150例の場合のAIによる自動判定と目視判定の一致率をそれぞれ算出した。また,波形の蛍光値を一定値に補正後,同様の検討を行った。【結果】総合判定の一致率は,LOF手法の学習データ数50例で98.0%に対し,100例,150例ではともに99.3%と向上が見られた。AE手法では学習データ数50例で98.3%,100例で98.0%,150例で98.6%とほぼ横ばいであった。蛍光値補正後は,両手法で学習データ数150例の総合判定の一致率は100%であった。【結語】AIを用いた自動判定は目視判定と非常に高い一致率が得られ,MSI検査の結果判定において有用であることが示された。
Background: Microsatellite Instability (MSI) testing involves examining the number of microsatellite repetitions by fragment analysis. The procedure is complex and laborious, and visual judgment is liable to human errors. We developed machine learning models and examined the usefulness of automatic judgment using AI in MSI testing. Method: Of 446 cases of MSI testing conducted at our hospital between June 2020 and December 2022, we used 150 cases as learning data and 296 cases as test data. We adopted the Local Outlier Factor (LOF) and Auto Encoder (AE) in the machine learning models and calculated the concordance rate between automatic judgment using AI and visual judgment in 50, 100, and 150 cases. Then, we repeated the examination after revising the fluorescence level of the wave pattern to a constant value. Results: With LOF, the overall concordance rate of judgment between the two methods was 98.0% for 50 cases and 99.3% for 100/150 cases. Thus, the concordance rate improved when the number of cases exceeded 50. With AE, the concordance rate of overall judgment was 98.0% for 50 cases, 98.0% for 100 cases, and 98.6% for 150 cases; thus, it was roughly flat irrespective of the number of learning cases. After revising the fluorescence level, the concordance rate of overall judgment for 150 cases was 100% with both LOF and AE. Conclusion: The high concordance rate between automatic judgment using AI and visual judgment indicates the promise of automatic judgment for MSI testing.
マイクロサテライト不安定性(以下,MSI)検査は,腫瘍細胞の中のミスマッチ修復機構の異常によるマイクロサテライトの繰り返し回数の変化を調べる検査である。コンパニオン診断薬であるMSI検査キット(FALCO)は免疫チェックポイント阻害剤の適応判定補助,大腸癌における化学療法の選択の補助,大腸癌におけるLynch症候群の診断補助に用いられ1),5種類のマーカーをpolymerase chain reaction(PCR)にて増幅後,小型キャピラリー電気泳動シーケンサーDS3000(HITACHI)によるフラグメント解析にて波形を解析する。体外診断検査薬の添付文書に従って,波形の極大ピークがQMVR幅と呼ばれる正常範囲の外側に認められた場合をMSI陽性とし,5種類のうち2種類以上のマーカーがMSI陽性となった場合をMSI-High,1種類以下の場合を陰性と判定する(Figure 1)。これらの結果判定は,フラグメント解析により得られたデータをGene Marker(SoftGenetics社)などの専用ソフトで補正後に波形を作成し,陰性コントロールと比較して目視で判定する。波形解析の工程は煩雑で,データ読み込みから結果解析までに約20分間を要することに加え,目視で判定するためヒューマンエラーが生じる可能性もある(Figure 2)。また,波形の極大ピークがQMVR幅を逸脱する正常波形パターンも存在し,これらの波形は例外的にMSI陰性と判定する必要があることから,判定には高い熟練度が要求される(Figure 3)。今回,我々はMSI検査の結果判定を行うための機械学習モデルを作成し,AIによる自動判定の有用性について検討した。

A: The peak wave pattern seen outside the QMVR range indicates MSI Positive.
B: Two or more MSI Positive markers indicate MSI-High, and less than one MSI Positive marker indicates a negative result.

The MSI testing procedure includes many steps and is complex and laborious.

Some MSI Negative wave pattern exhibit prominent peaks located outside the QMVR range in Japanese individuals.
2020年6月~2022年12月までに当院でMSI検査を実施した446症例を対象とした。目視判定でMSI検査陰性と判定した150例を無作為に抽出して学習用データとして使用し,残りの296症例を検証用データとして用いた。
2. 方法機械学習モデルの作成には,開発言語にPythonを使用し,scikit-learn 1.2.2のLocal Outlier Factor(以下,LOF)を用いたLOF手法とTensorFlow 2.12.0のKerasを用いたAuto Encoder(以下,AE)手法の2種類の異常検知手法を採用した。フラグメント解析のデータの読み込みと解析には,BioPython 1.78を用い,学習用データからQMVR幅を解析用の数値に変換し,QMVR幅外の解析データの波形を特徴量(モデルに読み込ませる学習データ)として使用した。AE手法では,学習データから平均絶対誤差(予測データと学習データの差を学習データ数で割った値)の最大値を閾値として設定し,その閾値を超えたものを異常と判定するように設計した。これらのデータ解析処理法を利用し,MSI検査の判定に使用される5種類のマーカーに対してLOF手法およびAE手法を用いた機械学習モデルをそれぞれ作成し,2種類以上のマーカーでMSI陽性となった場合は総合判定でMSI-High,1種類以下の場合は陰性と出力されるように設計した。データの読み込みから結果判定までの所要時間は約5分間であった。
1) 目視判定と機械学習モデルによる自動判定の比較検討目視判定を行った検証用データ296例を機械学習モデルによる自動判定で再判定し,目視判定との一致率を算出した。LOF手法,AE手法ともに過学習による一致率の低下を防ぐため,まず50例での学習精度を評価した後に,100例,150例と学習データ数を増やしていくことで精度の向上を図った。なお,一致率を評価する指標としてκ係数を用いた。κ係数は2つのモデルに対して検査結果の一致度合いを評価する指標である2)。一般的な評価基準は,κ ≤ 0.2ならPoor(不十分),0.2 < κ ≤ 0.4ならFair(まずまずの一致),0.4 < κ ≤ 0.6ならModerate(適度な一致),0.6 < κ ≤ 0.8ならSubstantial(かなりの良い),0.8 < κ ≤ 1.0ならAlmost(ほぼ完全一致)とされる3)。
2) データ補正後の目視判定と機械学習モデルによる自動判定の比較検討検体によって波形の蛍光値に大きなバラツキがあり,機械学習モデルによる自動判定では,蛍光値が小さい場合には波形を認識できず偽陰性となり,蛍光値が大きい場合にはノイズが波形として認識され,偽陽性となる可能性が考慮される。そこで,波形の蛍光値を全波形のピークの中央値である3,000に補正した後に,検証用データ296例を機械学習モデルにより再判定し,目視判定との一致率を算出した。データ補正前と同様にLOF手法,AE手法ともに50例,100例,150例のデータを学習させ,一致率を評価する指標としてκ係数を用いた。
本研究は兵庫県立がんセンター倫理委員会の承認を得て行った(G-461)。
学習データ数が50例の場合,全ての症例における目視判定と機械学習モデルによる自動判定の一致率は各マーカーで差はあるものの,両手法とも全てのマーカーで90%以上かつκ係数0.5以上,総合判定は98%以上かつκ係数0.8以上と高い一致率を示した。LOF手法では,学習データ数の増加に伴って一致率の向上が見られたが,AE手法ではNR-21以外のマーカーはほぼ横ばいであり(Table 1, 2),学習データ数150例の場合にはLOF手法がAE手法に比べて高い一致率を示した。MSI-High症例では,総合判定の一致率は全て85%以上と高い一致率ではあったが,陰性症例と比較するとやや低い傾向があった。また,各マーカーの一致率も陰性症例と比較して低い傾向があり,LOF手法では学習データ数50例の場合,BAT25が57.1%と低く,100例で61.9%,150例で85.7%と学習データ数の増加に伴って向上した。一方で,NR-21は学習データ数50例で95.2%と高い一致率であったが,100例では42.9%と大幅に低下し,150例では57.1%であった。AE手法では各マーカーの一致率は学習データ数が増加してもほぼ横ばいであった。
| (N = 50) | (N = 100) | (N = 150) | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Concordance rate | Concordance rate | Concordance rate | |||||||
| MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | |
| BAT-26 | 90.5% | 98.5% | 98.0% (0.85) | 100% | 99.6% | 99.7% (0.97) | 95.2% | 99.6% | 99.3% (0.95) |
| NR-21 | 95.2% | 92.0% | 91.9% (0.56) | 42.9% | 100.0% | 95.6% (0.50) | 57.1% | 99.6% | 96.3% (0.63) |
| BAT-25 | 57.1% | 99.3% | 95.6% (0.58) | 61.9% | 98.9% | 95.6% (0.61) | 85.7% | 98.9% | 97.3% (0.79) |
| MONO-27 | 90.5% | 98.5% | 97.3% (0.79) | 90.5% | 98.5% | 97.3% (0.79) | 90.5% | 98.5% | 97.3% (0.79) |
| NR-24 | 85.7% | 98.9% | 97.6% (0.82) | 85.7% | 98.9% | 97.6% (0.82) | 81.0% | 99.3% | 97.6% (0.81) |
| Overall Assessment | 90.5% | 98.5% | 98.0% (0.85) | 90.5% | 100% | 99.3% (0.95) | 90.5% | 100% | 99.3% (0.95) |
296 samples for test data
Number of machine learning training data (N = *)
| (N = 50) | (N = 100) | (N = 150) | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Concordance rate | Concordance rate | Concordance rate | |||||||
| MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | |
| BAT-26 | 90.5% | 98.9% | 98.3% (0.87) | 90.5% | 99.3% | 98.6% (0.90) | 85.7% | 99.6% | 98.6% (0.89) |
| NR-21 | 76.2% | 96.7% | 94.9% (0.62) | 76.2% | 98.5% | 96.6% (0.72) | 71.4% | 100.0% | 97.6% (0.78) |
| BAT-25 | 76.2% | 98.5% | 97.0% (0.76) | 76.2% | 98.5% | 97.0% (0.76) | 76.2% | 98.5% | 97.0% (0.76) |
| MONO-27 | 81.0% | 98.5% | 96.6% (0.73) | 81.0% | 98.9% | 97.0% (0.75) | 81.0% | 98.9% | 97.0% (0.75) |
| NR-24 | 95.2% | 98.2% | 97.6% (0.83) | 90.5% | 98.5% | 97.6% (0.82) | 90.5% | 99.3% | 97.3% (0.78) |
| Overall Assessment | 90.5% | 98.9% | 98.3% (0.87) | 85.7% | 98.9% | 98.0% (0.85) | 85.7% | 99.6% | 98.6% (0.89) |
296 samples for test data
Number of machine learning training data (N = *)
蛍光値補正前に比べ,両手法ともに全ての症例における各マーカーの一致率および総合判定の一致率は大幅に向上し,学習データ数150例の場合には総合判定の一致率は100%かつκ係数1.0となり,目視判定の結果と完全に一致した(Table 3, 4)。MSI-High症例においては,総合判定の一致率は両手法ともに100%と陰性症例と同等あるいはそれ以上であったが,LOF手法では各マーカーの一致率が陰性症例と比較してやや低い傾向があり,NR-21は学習データ数50例の場合100%であったが,100例の場合には57.1%と低下し,150例の場合に85.7%と再び上昇した。一方で,AE手法では各マーカーの一致率も陰性症例とほぼ同等の一致率を示し,学習データ数が増加してもほぼ横ばいであった。
| (N = 50) | (N = 100) | (N = 150) | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Concordance rate | Concordance rate | Concordance rate | |||||||
| MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | |
| BAT-26 | 90.5% | 99.6% | 98.9% (0.92) | 85.7% | 98.9% | 98.6% (0.90) | 95.2% | 99.6% | 99.3% (0.95) |
| NR-21 | 100% | 91.3% | 91.8% (0.56) | 57.1% | 99.6% | 96.3% (0.63) | 85.7% | 99.6% | 98.3% (0.86) |
| BAT-25 | 100% | 98.9% | 98.3% (0.87) | 100% | 99.3% | 98.6% (0.90) | 100% | 99.3% | 98.6% (0.90) |
| MONO-27 | 100% | 99.6% | 98.9% (0.92) | 95.2% | 98.5% | 98.3% (0.88) | 95.2% | 99.6% | 99.3% (0.95) |
| NR-24 | 95.2% | 97.1% | 96.6% (0.77) | 95.2% | 97.8% | 98.0% (0.86) | 85.7% | 99.6% | 98.3% (0.86) |
| Overall Assessment | 100% | 99.6% | 99.3% (0.94) | 100% | 99.6% | 99.7% (0.974) | 100% | 100% | 100% (1.0) |
296 samples for test data
Number of machine learning training data (N = *)
| (N = 50) | (N = 100) | (N = 150) | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Concordance rate | Concordance rate | Concordance rate | |||||||
| MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | MSI Positive/MSI-High | Negative | All (Kappa) | |
| BAT-26 | 100% | 99.6% | 99.7% (0.97) | 100% | 99.6% | 99.7% (0.97) | 100% | 99.6% | 99.7% (0.97) |
| NR-21 | 95.2% | 97.1% | 96.6% (0.76) | 90.5% | 99.3% | 98.3% (0.86) | 95.2% | 99.6% | 98.9% (0.92) |
| BAT-25 | 95.2% | 98.5% | 98.3% (0.88) | 95.2% | 99.3% | 98.9% (0.92) | 95.2% | 99.3% | 98.9% (0.92) |
| MONO-27 | 100% | 98.9% | 98.3% (0.87) | 100% | 98.9% | 98.3% (0.87) | 95.2% | 98.9% | 98.6% (0.90) |
| NR-24 | 95.2% | 98.9% | 98.9% (0.93) | 95.2% | 99.6% | 99.7% (0.97) | 95.2% | 99.6% | 99.6% (0.97) |
| Overall Assessment | 100% | 99.6% | 99.6% (0.974) | 100% | 100% | 100% (1.0) | 100% | 100% | 100% (1.0) |
296 samples for test data
Number of machine learning training data (N = *)
機械学習手法として用いられる深層学習や強化学習などの高度な手法は,膨大なデータを基にした自己学習能力を活かし,ニューラルネットワークを用いた非線形変換や,環境との相互作用を通じた報酬学習などにより精緻な予測や分類,最適化をすることが可能である4)~6)。特に深層学習は,層を深くすることで特徴量を自動的に抽出し,複雑な関係性を学習する能力に優れており,多次元的なデータのパターン認識や高次元の特徴抽出において非常に精度の高い学習が可能で,多種多様な分野でAIの開発が進められている7)。しかしながら,十分な予測精度を達成するためには膨大な計算資源やデータ量を要しなければならず,機械学習の多くの手法において大きな障壁となっている8)。一方で,比較的少ない学習データ量でも高い予測精度が期待できる手法として異常検知手法であるLOF手法やAE手法が知られている9)~11)。LOF手法はデータ分布が多様であっても対応可能であり,学習したデータの特徴量に基づいて近似性が低いデータを異常値として認識する。また,AE手法は深層学習に分類される機械学習手法の一つであり,少ない学習データ数でも細かなパラメーターの調整を行うことで一定の予測精度を達成し12),生成AIやクラスタリングなどで使用され,異常検知手法でも用いられる(Table 5)13)。本検討では学習データとして使用する症例数が比較的少なく,陰性症例数425例とMSI-High症例数21例に大幅な偏りがあったことから,通常の機械学習手法では学習データ量不足により予測精度を確保することが難しいと判断し,AE手法およびLOF手法を採用した。
| Methods | Algorithms | Feature | ||
|---|---|---|---|---|
| Training dataset size |
Handling of complex data |
Interpretability of Results※ |
||
| Auto Encoder (AE) |
Compress and reconstruct the input data, and define the deviation from the reconstructed data as anomalous | Medium | Flexible | Difficult |
| Local Outlier Factor (LOF) |
Based on feature amount of limited training samples, define low-similarity data as anomalous | Small | Limited | Explainable |
※Whether a human can understand or explain results of AI analysis.
目視判定と機械学習モデルによる自動判定の比較検討において,LOF手法で学習データ数の増加に伴って目視判定との一致率が向上した要因としては,多くのデータを学習することによりほとんどのマーカーの異常検知の閾値が小さくなり,学習データ数50例の場合に偽陰性と判定したデータが正しく陽性と判定されるようになったことが考えられる(Figure 4)。一方で,AE手法では同じパターンのデータであっても学習データの蛍光値のバラツキが大きく,別のデータとして扱われたために,学習データを追加しても同一パターンのデータがほとんど増えず,一致率が向上しなかった可能性がある。実際,蛍光値補正後には,AE手法でも学習データ数の増加に伴って一致率は向上しており,蛍光値のバラツキが大きな要因であったと推測される。また,蛍光値補正後に,補正前と比べて両手法とも目視判定との一致率が著しく向上した要因としては,蛍光値の補正によりバラツキが小さくなり,同一パターンの学習データ数が増加したことが挙げられる。蛍光値の大きな症例の場合に,目視判定でノイズと判定する波形を自動判定では判定対象の波形として捉えて偽陽性となっていた症例が陰性と判定されるようになり,波形の蛍光値が小さな症例の場合に,判定対象の陽性波形の一部を認識できず偽陰性となった症例が陽性と判定されるようになったと考える(Figure 5)。

Threshold for anomaly detection has decreased with increase in the number of cases, and the data previously classified as false negative were correctly identified as positive.
A: Threshold for anomaly detection in 50 cases
B: Threshold for anomaly detection in 150 cases

A: The case was judged as false-positive before the revision because noise was caught as a part of the positive wave due to the high fluorescence level, but judged as MSI Negative after the revision.
B: The case was judged as false-negative before the revision because a part of the wave was not caught as part of the positive wave due to the low fluorescence level, but judged as MSI Positive after the revision.
本検討では,MSIの陰性波形は正常パターンが多数存在し,QMVR内の波形を特徴量とするには多くの学習データが必要となるため,QMVR幅外の少ない波形パターンを特徴量として使用することで,両手法ともに学習データ数が50例と少数でも目視判定と高い一致率が得られた。また,QMVR幅外に大きく波形が出現するMSI-High症例は判定が容易となり,非常に高い一致率が得られると推察されたが,実際には両手法ともに蛍光値補正前の総合判定および各マーカーの一致率が陰性症例と比較して低い傾向にあった。これは,QMVR幅外にノイズのある陰性パターンの波形を学習したことにより,MSI-High症例で認められたQMVR幅外の波形もノイズとして捉え,MSI陰性と判定されるようになった可能性がある。実際,蛍光値補正後では各マーカーの一致率は大幅に向上し,目視判定と完全一致するマーカーも見られたことから,蛍光値補正により,学習データのQMVR幅外のノイズが低減され,改善した可能性が高い。しかしながら,LOF手法では蛍光値補正後でも,学習データ数が増加した際にNR-21やNR-24の一致率が低下した。この要因としては学習データ数を増加させた際に波形の極大ピークがQMVR幅を逸脱する正常波形パターンも含まれるようになったことで,NR-21やNR-24の異常検知の閾値が大きくなったことが挙げられる。AE手法では,学習データから波形を復元し,正常波形との誤差に基づいて判定を行うため,ノイズレベルの小さな波形には影響されず,またQMVR幅を逸脱する正常波形パターンに関しても新たな陰性パターンの一つとして認識するために一致率が低下しなかったと考えられる。
本検討によりMSI検査の結果判定においてAIによる自動判定が非常に有用であり,解析時間を約20分間から約5分間に大幅に短縮することができ,業務の効率化にも繋がることが示された。また,AE手法,LOF手法ともに同等の高い解析精度が達成され,特にAE手法においては学習データ数を増やすことで,各マーカーの一致率も向上し,更なる解析精度の向上が見込まれる。しかしながら,実際のMSI検査結果の判定への利用には十分な配慮が必要であり,多くの研究が重ねられ一日も早い実装を期待したい。遺伝子検査の分野では,次世代シークエンサーを用いた解析が主流となってきており,膨大なデータ量を適切に処理することが必要とされる。その中で,人的な負担を軽減し,いかに効率よく正確なデータ処理を行うかが求められ,AIを活用した結果解析が今後益々進むことが予想される。そのためにも,適切なAIの学習手法を選択することが重要である。
本来,機械学習には膨大な学習データが必要とされるが,異常検知手法を用いることで,少ない学習データ量でも高精度の機械学習モデルが作成できることが立証された。今後,様々な臨床検査分野においてAIが広く活用されることが期待される。
本論文に関連して,著者が開示すべき利益相反(COI)はありません。