J-STAGE トップ  >  資料トップ  > 全文HTML

情報管理
Vol. 56 (2013) No. 4 P 217-221

記事言語:

http://doi.org/10.1241/johokanri.56.217

生物医学画像の自動分類を可能にした能動学習型ソフトウェアCARTA

著者抄録

生物医学画像データを自動分類できる能動学習型ソフトウェアClustering-Aided Rapid Training Agent(CARTA)を開発した。CARTAは,自己組織化マップによる画像のクラスタリングを介して,専門家の意見を繰り返し学習することで,研究や検査目的にあった的確な分類基準を自動的に検討して選択する。判別が難しい2種類のがんについて核磁気共鳴画像法で画像を取得し,CARTAを用いて分類したところ,2種類のがんを由来別に,高精度で分類することができた。CARTAは生物学,医学,数学と情報科学が融合した学際的な次世代ソフトウェアであり,今後,生物医学画像の自動分類や定量解析の有力な支援ツールとなる。

1. 画像分類ニーズの拡大

イメージング技術の急速な発達にともない,近年,生物医学画像データの多様化と大規模化が急速に進んでいる。文字や記号だけのデータよりも画像の方が多くの情報を含むことと,通信システムやデータ保存技術の発達により,巨大容量のデータを簡単に伝達,保存できるようになったからにほかならない。しかしその一方で,多様なイメージング機器から得られる画像データは複雑なため,画像の判定や分類は実務経験の豊富な医師や研究者の目視で行うことがいまだに主流である。これは画像を使用した研究推進や医学的診断の律速段階になっている。実際,自動化されたイメージング機器を用いて多量の画像を取得し保存しても,分類や解析ができないために放置されることが研究現場で起き始めている。まさしく,イメージング機器のハードの進歩に,ソフトウェアが追いついていないと言えよう。

今日の研究や医療現場では,顕微鏡,X線撮像法,コンピューター断層撮影法(CT),核磁気共鳴画像法(MRI),陽電子放出断層撮影(PET)などによる画像診断が広く用いられる。例えば,病院の検査現場では,限られた人数の画像診断医が全ての患者の画像を読影するため,診断結果が確定するまでに多くの時間を要している。このような画像診断医をはじめとする専門家の負担軽減や画像判定の効率化を図ることを目指して,生物医学画像の自動分類ソフトウェアの開発を開始した。

2. 今までのソフトウェア開発における問題点

これまでも多量の生物医学画像を分類するソフトウェアの開発がなされてきた。ただ,その多くが,画像の種別や分類目的ごとに評価を行う目的で個別に開発されてきた。この開発法では,分類目的,イメージング機器,撮影条件が変わるたびにソフトウェアを作り替えなくてはいけない。

一方,人間は周囲の環境や目的が変わってもすぐに認識して画像を分類することができる。人間に近いパターン認識をソフトウェアに実行させるには,教師データをコンピューターに与えることが必要になる。この場合の教師データとは,アノテーション情報(画像が何を意味するかの情報)を事前に付与した見本データや手本データのことである。それらのデータを元にして機械学習をおこなう手順が教師付機械学習アルゴリズムである。このような学習アルゴリズムを基盤にした自動分類は,教師データを与えれば与えるほど,分類精度が高まる。しかし,そのためには,専門家が事前に教師データを作成する必要があり,労力と時間がかかる。また,目的や対象法が異なる画像を分類するためには,そのたびに教師データを用意してアルゴリズムを作成し直さなければならない。例えば,同じ細胞の明視野像と蛍光像であっても,それぞれの像を分類するためには異なる教師データを準備し,異なるアルゴリズムを開発してはじめて自動分類が可能になる。膨大で多種多様な画像を,1つのソフトウェアを用いて自動的かつ高精度で分類できる方法を開発すれば,これらの問題が解決できると期待されてきた。

また,大量の画像データから画像を検索するシステムの開発も盛んになってきている。例えば,その画像が何を意味するか,何を写しているかなどの文字によるアノテーション情報の類似度に基づき,生物医学画像を検索するエンジンが米国の国立医学図書館(National Library of Medicine)で開発されている。しかし,文字情報ではなく,画像本来の特徴に基づき,1つのソフトウェアにより大量の画像群を自動分類する技術は開発されていなかった。

3. 革新的ソフトウェアCARTAの開発

上記のような既存のソフトウェアの問題点を克服するために,JST(科学技術振興機構)研究成果展開事業「先端計測分析技術・機器開発プログラム」の支援を受けて,開発課題「生物画像のオーダーメイド分類ソフトウェアの開発」を推進し,生物医学画像の自動分類法を開発した。また開発した自動分類ソフトウェアCARTAについてNature Communications誌(2012年8月28日号)に論文発表した1)。CARTAはClustering-Aided Rapid Training Agentの頭文字をとっており,分類結果表示が日本伝統文化のカルタを並べた様子に似ていることから日本発の技術として命名した。国際特許も取得している(特許第4688954号・2011年2月25日登録,US8260063-B2,EP2141657-A1)。

人間は複数の絵画から画風をもとに作者を知ることもできるし,特に判定基準を設けなくても多くのサンプルから異常なものを選定することが可能である。赤ん坊は判定基準を考えずにトライ&エラーを繰り返しながら,言語を取得し物事の認識能力を高めていく。ソフトウェア開発でも,このような優れた分類能力を持つ人間の脳の学習を模倣したニューラルネットワークの研究が盛んになり,その成果を利用した能動学習型ソフトウェアの開発に注目が集まってきた。CARTAもユーザーや専門家が入力する目的やアドバイスを繰り返し学習しながら,画像分類を行う能動学習型ソフトウェアである(図1)。CARTAを用いれば,専門家や診断医の知力と経験を自ら取り込むことで,最小限の教師情報により精度の高い分類器を作成することが可能である2)


View Details
図1 CARTAによる画像分類の概要

また,もう1つの特徴としてCARTAは半教師付機械学習アルゴリズムを利用している。人間が与えた少数の教師データに加え,多数の教師なしデータ(出力が与えられていないデータ)からも学習することで,予測精度の高い分類を実現するアルゴリズムとなった。これは教師付機械学習の弱点である個別かつ多数の教師データを準備する難点を解決したと言えよう。教師なしデータから学習するために,CARTAは自己組織化マップ(Self-Organizing Map: SOM)を利用している。SOMは入力データの類似度を2次元平面場の距離で示すことにより,視覚的に相関関係やクラスタリング(群れや集団を形成すること)を表示できる。しかし,クラスタリングが常に目的に合うように類似度を示すわけではない。

そこで,CARTAでは,初期の分類結果を専門家が見て,間違って分類された画像を指摘し,新たにアノテーション情報(教師データ)を指示できるようにした。このようにSOMによる画像のクラスタリングを介して,専門家の意見を繰り返し学習すること(Iterative Clustering)で,研究や検査目的にあった的確な分類基準を自動的に検討する。クラスタリングに用いる特徴量(画像の特徴を数値化した値,例えば,図の濃淡・形・均等さなどの特徴を数値で表す)は自由に入れ替えることが可能であり,遺伝的アルゴリズム(選択・変異・組み換えなどを繰り返すことにより最適な遺伝子が残ってきた自然淘汰システムを模して最適な解を出すアルゴリズム)を使用して最適な分類を達成した段階で自動的に検討作業を止め,その結果をコンピューター画面上に表示する。

4. CARTA実用化への挑戦

細胞画像群を用いて,従来法と分類・判定精度を比較した結果,CARTAを使用した場合の判定精度は,目視による従来法を上回り,判定速度も2倍以上にスピードアップした1)。さらに,蛍光強度,画像の形状などのパラメーターを用いた市販の自動分類ソフトウェアと比較しても,間違った判定は半分以下になり,判定速度は2倍から10倍速くなった。

そこで,医療診断画像にもCARTAが適用できるかどうかを調べるために,判別が難しい2種類のがんを核磁気共鳴画像装置により撮影したマウスの腫瘍部分のMR画像286枚をCARTAにより分類した(図2)。画像からがんの種類を見分けることは,それが原発性腫瘍なのか転移して形成された腫瘍なのかを判断し,治療方針を決める上でも最も重要な診断の1つである。肉腫由来のがん細胞S180と乳がん由来のがん細胞FM3Aをマウスに皮下注射し,形成された腫瘍のMR画像を分類に用いた。画像診断医はこれらのMR画像から2種類のがんを見分けることができるが,専門外の研究者には判定は困難であった。


View Details
図2 マウス腫瘍のMR画像(上)とCARTAによる腫瘍画像の自動分類(下)

CARTA分類結果のコンピューター画面への表示方法は,タイルマップと円グラフマップの2種類がある。いずれも10×10の格子状のマップの格子1点1点に類似度の高い画像群が分類されている。タイルマップは,格子1点に集まった画像群の中で代表的な画像を表示している。円グラフマップは,集まった画像のアノテーション情報を円グラフで表示したマップである。円の大きさは分類された画像数に比例して大きくなる。また,空白部分は集まった画像がないことを示している。

CARTAを用いて分類した結果をタイルマップで解析すると,FM3A,S180として分類された画像群が異なる領域にクラスタリングされた。さらに,円グラフマップで解析すると四隅の格子には,一方のがんの画像のみが分類された。このように,特殊な訓練を積んだ画像診断医にしか判別できないようなMR画像群もCARTAを用いて分類することができた。しかし,円グラフチャートの境界部分に分類された画像群はFM3AとS180が混合していた。境界部分に分類された画像群は,画像診断医自身が判定する必要がある。

5. 今後の展開:CARTAの可能性

CARTAは研究および診断支援ソフトウェアであり,上記のように,CARTAを画像分類ソフトウェアとして活用することで,明らかに分類が明確な画像群を省き,分類の境界線上にある判断が難しい画像群だけを抽出して,専門家に少数の判定用画像群として供与できる。これにより,専門家が膨大な画像を端から1枚1枚目視する必要がなくなり,画像分類や判定の労力軽減と画像を用いた研究および開発のスピード向上が期待される。また,医学画像に限らず,リード化合物や新規化合物の細胞毒性試験の定量評価,植物工場の自動化に必要な生育状態のモニタリングなど,CARTAは幅広い生物画像の自動分類ソフトウェアとして検査・評価システムに組み込むことが可能である。今後は,民間企業の方々と共同研究を進め,具体的なイメージング機器やシステムにCARTAを搭載して,プロトタイプシステムの作成や実用化を進めていきたいと考えている。

謝辞

CARTAの開発はJST研究成果展開事業 先端計測分析技術・機器開発プログラムの支援を受けました。CARTAの医療画像への適応研究は,国立がん研究センター 東病院・機能診断開発分野の山口雅之ユニット長,藤井博史分野長との共同研究として行われました。また,図1のイラストは池田沙織さん(前・東京理科大学理工学部応用生物科学科)に描いて頂きました。関係各位に深く御礼申しあげます。

参考文献

1)  Kutsuna, N.; Higaki, T.; Matsunaga, S.; Otsuki, T.; Yamaguchi, M.; Fujii, H. and Hasezawa, S. Active learning framework with iterative clustering for bioimage classification. Nature Communications. 2012, vol. 3, 1032p.
Copyright © 2013 Japan Science and Technology Agency

記事ツール

この記事を共有