内視鏡動画を用いたマスクRCNNによる咽頭癌の診断（動画付き）

河野 光泰; 石原 立; 加藤 勇介; 三宅 宗彰; 庄司 絢香; 井上 貴裕; 松枝 克典; 脇 幸太郎; 福田 弘武; 嶋本 有策; 藤原 靖弘; 多田 智弘

doi:10.11280/gee.64.87

要旨

【目的】咽頭癌リアルタイム診断のための人工知能（Artificial Intelligence：AI）システムの開発．

【方法】当施設で治療された咽頭癌の内視鏡動画と静止画像を収集された．収集対象は病理学的に咽頭癌と診断された患者276人の合計4,559枚の静止画（白色光（White Light Imaging：WLI）1,243枚と狭帯域光観察（Narrow Band Imaging：NBI）/青色レーザーイメージング（Blue laser Imaging：BLI）3,316枚）で，これらの静止画をAIシステムのトレーニングデータセットとして使用した．AIシステムは，画像分析に頻用される畳み込みニューラルネットワーク（convolutional neural network：CNN）モデルを使用し作成された．AIシステムの検証には，当院で撮影された咽頭癌の25症例と正常な咽頭の36症例の動画（トレーニングデータセットとしては用いられていないもの）が用いられた．

【結果】AIシステムは，23/25（92％）の咽頭癌を癌と正しく診断し，17/36（47％）の非癌を非癌と正しく診断した．AIシステムの処理速度は画像あたり0.03秒で，リアルタイム診断に対応できる速度であった．癌の検出の感度，特異度，および正診率は，それぞれ92％，47％，および66％であった．

【結論】単一施設の研究ではあるが，われわれが作成したAIシステムが，咽頭領域の癌を，高い感度と許容できる特異性で診断できることを示した．さらなるトレーニングにより性能を向上させるためには，多施設でより大きなデータセットの収集が必要である．

Ⅰ　はじめに

咽頭癌は世界で年間約136,000の発生があり，先進国で増加している^1），2）．咽頭癌のほとんどは進行した段階で診断されるため，一般的に予後は不良である^3），4）．Tis期（上皮内癌），T1期の咽頭癌の早期発見は，内視鏡的切除または放射線療法の低侵襲治療によって治癒する可能性があり，患者に有益である^5）～7）．しかし，内視鏡検査による咽頭癌の早期発見は，経験豊富な内視鏡医でさえ非常に困難である．内視鏡検査中に塩酸ペチジンなどの麻薬を使用すると，咽頭反射を軽減できるが^8），麻酔のみでは咽頭癌早期発見における有用性は限られている．咽頭癌の早期発見を実現するツールとして，人工知能（Artificial Intelligence：AI）システムがある．

AIシステムで最も用いられているDeep learningは，通常，畳み込みニューラルネットワーク（convolutional neural network：CNN）に基づいており，視覚的なタスクで優れたパフォーマンスを発揮する．この技術は食道癌を含む消化器癌の診断に使用されてきたが，われわれの知る限りでは^9）～11），咽頭癌診断能の検証に内視鏡動画を使用したAIシステムの報告はない．そのためわれわれは，最新のDeep learningを使用して咽頭癌を検出するAIシステムを開発し，その有用性について動画リアルタイム診断をシミュレートした動画を用いて検証した．

Ⅱ　方　　法

<学習データセットの準備>

この研究は大阪国際がんセンターで実施された．AIシステムのトレーニングは，日常診療で撮影された内視鏡動画と静止画を使用して実施された．内視鏡検査は，オリンパス内視鏡（GIF-RQ260Z，GIF-FQ260Z，GIF-Q240Z，GIF-H290Z，GIF-HQ290，およびGIF-H260Z）の白色光観察（White Light Imaging：WLI）および狭帯域光観察（Narrow Band Imaging：NBI）と，フジフイルム内視鏡（EG-L590ZW，EG-L600ZW，またはEG-L600ZW7）のWLIと，NBIと同様の画像を提供する青色レーザーイメージング（Blue Laser Imaging：BLI）を使用された．構造強調機能には，NBIの場合はBモードのレベル８，BLIの場合はBモードのレベル５～６が使用された．

<トレーニングデータセットの作成>

2015年11月から2019年６月の間に当施設で治療された咽頭癌の内視鏡動画と2005年12月から2018年４月の間に撮影された静止画が収集された．これらの内視鏡画像のほとんどは，内視鏡医として14年から28年の経験を持つものによって撮影された．

咽頭癌や喉頭癌に対して化学療法や放射線療法を行っている患者，潰瘍または潰瘍瘢痕に隣接する病変，悪性リンパ腫，および出血，ハレーション，ぼやけ，および焦点不良に起因する低品質画像は除外された．

動画は連続する静止画で構成されているが，トレーニングの際には一連の静止画に分割され使用された．動画を分解した大量の連続静止画（動画の１秒あたり30枚の画像）から，30枚に１枚が抽出され，トレーニングデータセットに含まれた．動画から静止画を抽出しトレーニングすることにより，撮影距離，角度，焦点に変化が生まれ，トレーニング画像の撮影条件を多様化することができる．

学習画像には，WLI，NBI，およびBLI画像が含まれた（Figure 1）．最終的に，病理学的に咽頭癌と証明された患者276人，4,559枚の静止画（1,243枚のWLI画像および3,316枚のNBI/BLI画像）がトレーニングデータセットとして選択された．静止画には，拡大内視鏡検査（Magnifying Endoscopy：ME）または非ME，および使用された照射光（WLI，NBI，またはBLI；Figure 2）などの情報を注釈として付与した．

Figure 1　

咽頭癌の診断のためのdeep learningを用いたAIシステムの開発．

動画は一連の静止画に分割された後，癌部分をフリーハンドで正確にマーキングした．RoI＝関心領域．

Figure 2　

非拡大NBI画像で視覚化された下咽頭後壁に位置する表在型咽頭癌の症例．

a：マーキング前の病変．

b：フリーハンドマーキング後の病変．

<AIシステムの構築>

AIシステムの構築に使用された畳み込みニューラルネットワーク（convolutional neural network： CNN）モデルは，視覚的イメージの分析によく用いられる深層学習人工ニューラルネットワークを用いた．この研究では，教師あり学習を使用してCNNをトレーニングした．教師あり学習では，トレーニングセットはトレーニングフェーズ中にシステムへ入力される．各入力には望ましい出力値（正しい診断）が付けられており，このことで特定の入力に対してどのような出力が必要なのかをシステムに指示することができる．ネットワークをトレーニングするには，診断情報が正確な大量のトレーニング内視鏡画像が必要である．

CNNは，従来のアルゴリズムでは手作業で作られていたフィルターを学習する．本研究で使用した数学的アルゴリズムは，マスクRCNN^12）である．これは，より高速な領域に基づいた畳み込みニューラルネットワーク（region-based convolutional neural network：RCNN）を進化させたもので，関心領域ごとにセグメンテーションマスクを予測するブランチを追加し，分類およびバウンディングボックス回帰のための既存のブランチと並行して実行するものである（Figure 3）．また，物体検出アルゴリズムには，位置推定の後にクラスマスクを推定するという２段階方式を採用した．

Figure 3　

マスクRCNNシステムのシェーマ．

第１段階では，提案された領域が畳み込み特徴マップから識別され，RoI整列レイヤーを通過する．

第２段階では，マスクR-CNNは，RoI align法を使用して，各RoIのオブジェクトクラス，バウンディングボックス，およびセグメンテーションマスクを予測する．

<AIシステムの評価>

AIシステムは，2019年６月から2019年９月の間に当院で撮影された咽頭癌の動画25本と正常な咽頭の動画36本（合計61本の動画）で構成される独立した検証データセットを使用して評価された．これらの内視鏡動画は主に，内視鏡医として８年から28年の経験を持つ３人の内視鏡医によって撮影された．

日常診療で癌を検出するプロセスをシミュレートするために，癌の動画を編集して，病変に焦点を当てた画像，つまり，近距離から画面の中央にある病変をとらえている画像を除外した．さらに，癌および非癌の動画の長さが同じになるように調整した．このような編集により，NBI/BLIを使用したすべての非拡大内視鏡動画の長さは，６～12秒であった．はっきりとした隆起または潰瘍を伴うような進行型咽頭癌は，検証セットから除外された．それ以外の点では，選択基準と除外基準は，トレーニングデータセットと同じだった．

訓練されたニューラルネットワークは，咽頭癌の確率について０から１の間のprobabilityスコアを算出した．AIシステムにより画像に表示された各フレームは，probabilityスコアが0.60以上で，AIが表示したフレームが正しい癌領域と２割以上重なっている場合に癌と判断された．非拡大内視鏡検査での癌の確定診断は，時間間隔が0.1秒以下の３つの陽性画像が，各動画で10回発生した場合に癌と診断された（Figure S1）．これらの値は，以前の報告を参照して決定した^{13），14）}．

＜評価項目＞

主要評価項目の尺度は，診断の精度，感度，特異度，陽性的中度（Positive Predict Value：PPV），および陰性的中度（Negative Predict Value：NPV）とした．これらのパラメータは，動画ごとで計算された．癌の動画で癌が検出された場合，システムの結果は正しい診断と判断され，非癌の動画で癌が検出されなかった場合も結果も正しい診断と判断された．

結果は，平均および95％信頼区間（Confidence interval：CI）として表示される．すべての計算は，EZRソフトウェアバージョン1.40（自治医科大学附属さいたま医療センター，日本）を使用して実行された．

倫理

この研究は，大阪国際がんセンターの倫理委員会（No. 19026）および日本医師会（JMA-IIA00283）によって承認された．すべての参加者は，当院のウェブサイトでオプトアウト方法を使用して，この研究の前に研究への参加を拒否する機会を与えられた．

Ⅲ　結　　果

検証データセット用に23人の患者から選択された25病変の特徴をTable 1に示す．AIシステムは，23/25（92％）の咽頭癌を癌と正しく診断し，17/36（47％）の非癌を非癌と正しく診断した．各動画に癌が写っている時間の中央値は２秒だった（範囲：0.5～４秒）．われわれのシステムは，リアルタイム診断に必要な処理速度である１画像あたり0.03秒を満たしていた．

Table 1　

トレーニングセットの患者と病変の特徴．

癌の検出の感度，特異度，PPV，NPV，および精度は，それぞれ92％，47％，55％，89％，および66％であった．動画を構成する癌画像のうちAIで癌と判定された画像の割合は，21例で100％～80％，３例で79.9％～60％，１例で19.9％～０％であった．病変の特性別にみた診断性能は以下のとおりであった．20mm以下の15病変のうち13病変，20mm超の10病変すべてがAIで癌として検出された．下咽頭の18病変のうち17病変，中咽頭の７病変のうち６病変がAIで癌として検出された．TisまたはT1の13病変のうち11病変，T2またはT3の12病変すべてがAIで癌として検出された（Figure 4,5,6，電子動画 1）．TisおよびT1病変の感度はともに83％であった（５/６）（Table 2）．２つの偽陰性例は平坦な病変であり，１つは披裂喉頭蓋ひだに，もう１つは口蓋扁桃に位置していた．偽陰性の２症例とも大きさ20mm以下であり，TisまたはT1であった．

Figure 4　

左扁桃腺にあるT1癌の症例．

a：診断前．

b：マスクRCNNによって診断された病変．

Figure 5　

左梨状窩にあるTis癌の症例．

a：診断前．

b：マスクRCNNによって診断された病変．

Figure 6　

後壁に位置するTis癌の症例．

a：診断前．

b：マスクRCNNによって診断された病変．

play

Update Required To play the media you will need to either update your browser to a recent version or update your Flash plugin.

Download Video

電子動画 1

Table 2　

検証セットの患者と病変の特徴．

19の偽陽性症例のうち，７例は軽度の血管拡張を伴う茶色域であり，12例は正常な粘膜だった（Figure 7）．正常粘膜の12例が偽陽性となった原因は，唾液により焦点が合っていないもの５例，遠方の唾液を癌と誤認が４例，咽頭反射によるぼやけ２例，ハレーション１例であった．生検標本の組織学的評価では，７つの茶色域のうち，１例が炎症性変化，１例がリンパ濾胞，５例が軽度から中等度の異形成であることが示された．

Figure 7　

通常の咽頭画像．

a：診断前．

b：AIは唾液に反応する．

Ⅳ　考　　察

われわれのAIシステムは，咽頭癌の診断に対して92％の感度と47％の特異度を示した．日本の癌統計データ^15）によると，TisまたはT1の咽頭癌は咽頭癌全体の16.4％に過ぎない．早期癌で発見される割合が低いのは，咽頭癌の症状が表在癌の段階では軽く，進行癌になるまで現れないことが原因の一部である．しかし，日本では胃癌検診や腹部症状精査のために内視鏡検査が頻繁に行われている．それにも関わらず癌の統計で報告されている初期の咽頭癌の割合が低いのは，これら表在癌が内視鏡検査で見逃されている可能性がある．

この研究では，われわれのAIシステムは，TisおよびT1ステージの癌を含む，多くの初期段階の癌を検出した．この良好なパフォーマンスに基づくと，AIシステムは日常診療における表在型咽頭癌の検出を改善させることが期待できる．

この研究では，特異度が47％と不十分だった．これは，咽頭の複雑な構造と，ぼやけ，唾液による焦点不良，泡，および咽頭反射による不十分な観察条件に起因する．ぼやけ，唾液による焦点不良，または咽頭反射に由来する偽陽性の症例は，静止画像を使用した以前の検証では報告されていなかった^13）．このような偽陽性を減らし特異度を改善させるのは，良好な条件下で撮影された非癌画像でトレーニングするだけでは難しく，さまざまな条件下で撮影された癌画像と正常な構造画像でのさらなるトレーニングが必要である．

Tamashiroらは咽頭癌を検出するためのAIシステムを開発し，静止画像でその性能を検証した^13）．システムの性能は良好だったが，静止画は通常良好な条件下で撮影されるため（適切な角度，距離，および焦点），静止画を使用した検証にはバイアスがかかる可能性がある．動画を用いた検証では，さまざまな条件（焦点が合っていない，ぼやけている，粘液や唾液のため背景条件が悪いなど）の画像が含まれているため，動画AIシステムのより現実的な評価が可能になる．

以前の食道癌のAIシステムは，静止画を使用した検証で，食道癌の検出に高い性能を示した（感度，特異度，精度はそれぞれ100％，63％，77％）^16）．しかし，最新のテクノロジーと静止画用AIの約２倍の食道癌画像を用いてAIシステムをトレーニングした後でも，動画を使用した検証ではこの高性能は再現されず（感度，特異度，精度はそれぞれ91％，51％，63％），動画を用いた検証で良い成績を出すことの難しさが確認された^14）．

われわれのこの研究では，動画を用いた検証で患者ベースの分析で92％の感度で良好なパフォーマンスを示した．さらに，動画を構成する個々の画像レベルでの解析では，画像84％の患者で癌画像の80％以上が陽性と判断され，96％の患者で癌画像の60％以上が陽性と判断された．これらのデータから，AIシステムが咽頭癌の検出に貢献すると期待できる．

咽頭領域の複雑な構造と唾液，粘液，または咽頭反射に由来する不十分な観察条件は，偽陽性の症例の割合を増加させ，特異度とPPVを損なう可能性がある．そのため，動画を構成する画像で，連続もしくはほぼ連続で癌と診断された場合にのみ癌と診断するなどの，AIシステム用の咽頭癌の診断基準を設定した．このことが，動画検証での良い成績に貢献した可能性がある^{13），14）}．「各動画で0.1秒以内の時間間隔で３枚の陽性画像」（Figure S1）を満たすには，３枚の陽性画像が連続して現れる場合が最短で0.1秒（動画には１秒あたり30枚の静止画があり，そのうち３枚陽性となるのにかかる時間），３つの陽性画像が0.1秒間隔で表示される場合が最長で0.3秒を要することになる．つまり，「動画時間間隔が0.1秒以下の３つの陽性画像」が10回発生するのには１～３秒かかることになる．しかし，ほとんどの癌症例では陽性画像がほぼ連続して現れるため，この状態は少なくとも１秒間陽性画像が頻繁に現れることに近似している．

われわれのAIシステムは特異度やPPVが低く，多くの偽陽性病変が検出される可能性がある．しかし偽陽性病変の多くは，内視鏡医によって非癌と簡単に診断できるものであった．さらに，診断基準のパラメータを変更すれば，より良い特異度とPPVを得ることができた．AIシステムは高感度で咽頭癌の検出を強化できる可能性があるが，癌と非癌の画像をより多く蓄積することで特異性とPPVを高める必要がある．

一般的にRCNNシステムは，領域提案（目的の物体が存在しうる画像領域の候補を提示する）ネットワークを使用して物体の周囲に境界ボックスを作成し，これらのボックスを利用して物体を分類する．この方法は診断精度を上げるためには良い方法であるが，計算時間が長いためリアルタイム診断には適していない．MultiBox Detectorは^{9），10），16）}，物体候補領域ネットワークを排除することにより診断過程をスピードアップできるため，消化器癌検出用AIによく用いられてきた．今回われわれが用いたAIシステムでは，進化したRCNNである「マスクRCNN」を使用した^{12），17）}．マスクRCNNで使用される物体検出アルゴリズムは２段階（位置推定後のクラスマスクの推定）であり，以前のアルゴリズムと比較して以下の２つの利点がある．（１）インスタンスセグメンテーションの推定を実行でき，位置と面積はバウンディングボックスから正確に推定できる．（２）クラス推定とマスク推定を並行して実行できる．マスクRCNNは最先端のオブジェクト検出アルゴリズムで，早い処理速度と高い精度はこの方法の特徴である．

われわれが用いたシステムでは，検出された病変を境界ボックスとセグメンテーションマスクでモニターに示した．ただし，メインモニターにこれらを表示することは，内視鏡観察の妨げになる可能性がある．AIシステムを臨床で使用する場合は，サブモニターのみでの表示，モニターの背景の点滅，ディスプレイなしのアラーム音など，他の表示方法を検討する必要がある．本研究では，咽頭癌を検出するためのAIシステムの開発を目指した．

この研究にはいくつかの問題点がある．まず，検証に６～12秒の短い動画を使用した．これには，唾液，泡，ぼやけ，不適切な撮影条件（遠すぎる，または近すぎる）を含む低品質の動画が含まれる．より高品質の画像を使用することで疑似陽性または陰性の症例を減らすことができた可能性があるが，しかし日常臨床では悪条件での観察を強いられることがあり，AIシステムの臨床適用を考慮すると悪条件でも癌を検出できるようにすべきである．第二に，進行癌はAIシステムの検証から除外したが，これは進行癌では症状があり，AIシステムなしでも容易に検出されるだろうからである．第三に，この研究の検証には，非拡大NBIまたはBLIのみを用いた．これは，NBIおよびNBIに似たBLI が，早期咽頭癌の検出に最適なモダリティであることが示されているためである^18）．ただし，将来的にはさまざまなモダリティに適用されることを考慮して，WLIや拡大画像も含めたAIシステムのトレーニングも行った．今後はNBIやBLIの拡大観察を加えることにより，システムの特異度を高める可能性がある．第四は，単施設後ろ向き研究であることである．将来的には，多施設の前向き試験で検証する必要がある．

Ⅴ　結　　語

この単施設研究により，咽頭領域の病変検出のためのAIシステムが，高感度と許容可能な特異度で有望であることを示した．しかし今後は，多施設から集積したより多くの咽頭癌画像により，システムのさらなる改善が必要である．

本論文内容に関連する著者の利益相反：多田智弘はAI Medical Service Inc．の株主である．他のすべての著者は，この出版物に関連して開示するCOIはない．

補足資料

Figure S1　「0.1秒以内の時間間隔で３つのポジティブ画像」の条件の説明．

電子動画1　左梨状窩にある咽頭癌の動画．右側の画面はマスクRCNNによる診断を示している．

文　献

1. . Siegel R, Naishadham D, Jemal A. Cancer statistics, 2013. CA cancer J Clin 2013； 63：11-30.
2. Chaturvedi AK, Anderson WF, Lortet-Tieulent J et al. Worldwide trends in incidence rates for oral cavity and oropharyngeal cancers. J Clin Oncol 2013； 31：4550-9.
3. Global Burden of Disease Cancer C, Fitzmaurice C, Allen C et al. Global, regional, and national cancer incidence, mortality, years of life lost, years lived with disability, and disability-adjusted life-years for 32 cancer groups, 1990 to 2015:A systematic analysis for the global burden of disease study global burden. JAMA Oncol 2017； 3：524-48.
4. Citation to a web page. Vital Statistics Japan（Ministry of Health, Labour and Welfare）. ［cited 2020 May 27］. Available from: https://ganjoho.jp/reg_stat/statistics/index.html.
5. Kato M, Ishihara R, Hamada K et al. Endoscopic surveillance of head and neck cancer in patients with esophageal squamous cell carcinoma. Endosc Int Open 2016； 4:E752-5.
6. Muto M, Satake H, Yano T et al. Long-term outcome of transoral organ-preserving pharyngeal endoscopic resection for superficial pharyngeal cancer. Gastrointest Endosc 2011； 74：477-84.
7. Hanaoka N, Ishihara R, Takeuchi Y et al. Endoscopic submucosal dissection as minimally invasive treatment for superficial pharyngeal cancer:a phase Ⅱ study（with video）. Gastrointest Endosc 2015； 82：1002-8.
8. Yamasaki Y, Ishihara R, Hanaoka N et al. Pethidine hydrochloride is a better sedation method for pharyngeal observation by transoral endoscopy compared with no sedation and midazolam. Dig Endosc 2017； 29：39-48.
9. Hirasawa T, Aoyama K, Tanimoto T et al. Application of artificial intelligence using a convolutional neural network for detecting gastric cancer in endoscopic images. Gastric Cancer 2018； 21：653-60.
10. Horie Y, Yoshio T, Aoyama K et al. Diagnostic outcomes of esophageal cancer by artificial intelligence using convolutional neural networks. Gastrointest Endosc 2019； 89：25-32.
11. Luo HY, Xu GL, Li CF et al. Real-time artificial intelligence for detection of upper gastrointestinal cancer by endoscopy:a multicentre, case-control, diagnostic study. Lancet Oncol 2019； 20：1645-54.
12. He KM, Gkioxari G, Dollar P et al. Mask R-CNN. IEEE T Pattern Anal 2020； 42：386-97.
13. Tamashiro A, Yoshio T, Ishiyama A et al. Artificial intelligence-based detection of pharyngeal cancer using convolutional neural networks. Dig Endosc Published online:16 Feb 2020；DOI:10.1111/den. 13653.
14. Fukuda H, Ishihara R, Kato Y et al. Comparison of performances of artificial intelligence versus expert endoscopists for real-time assisted diagnosis of esophageal squamous cell carcinoma（with video）. Gastrointest Endosc Published online:4 June 2020；DOI:10.1016/j.gie.2020.05.043.
15. Japan Society for Head and Neck Cancer Cancer Registry Committee. Report of Head and Neck Cancer Registry of Japan Clinical Statistics of Registered Patients, 2015. ［cited 2020 July 11］ Available from: http://www.jshnc.umin.ne.jp/pdf/2015syourei_houkoku_1027.pdf
16. Ohmori M, Ishihara R, Aoyama K et al. Endoscopic detection and differentiation of esophageal lesions using a deep neural network. Gastrointest Endosc 2020； 91：301-9.
17. Zhang Y, Chu J, Leng L et al. Mask-Refined R-CNN:A Network for Refining Object Details in Instance Segmentation. Sensors（Basel） Published online 13 Feb 2020. DOI:10.3390/s20041010.
18. Muto M, Minashi K, Yano T et al. Early detection of superficial squamous cell carcinoma in the head and neck region and esophagus by narrow band imaging: a multicenter randomized controlled trial. J Clin Oncol 2010； 28：1566-72.

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）