JSBi Bioinformatics Review
Online ISSN : 2435-7022
Review
Biological Image Analysis Field in Bioinformatics
Hironori Shigeta
Author information
JOURNAL OPEN ACCESS FULL-TEXT HTML

2021 Volume 1 Issue 2 Pages 60-66

Details
Abstract

顕微鏡等のイメージング技術の進展により、様々な生物現象を「見る」ことが可能となった。同時に人間の手では解析できないほど膨大なデータが産出されることになり、手作業によるデータ解析が困難になるという問題点も生じた。この問題を解決するため、生物画像解析技術が広く研究されるようになった。本稿ではこのような生物画像を扱うバイオイメージインフォマティクスと呼ばれる研究分野について概説すると共に、近年の研究動向や研究事例について紹介する。

1.はじめに

近年、顕微鏡等のイメージング技術が急速に発展し、様々な生物の現象を直接「見る」ことが可能となった。このイメージング技術は生物学の新たな知見を得るために重要な役割を果たしている。また技術の進展に伴い、多種多様な膨大な画像データが得られるようになった。顕微鏡技術は光学顕微鏡に始まり、蛍光物質の観察を通して生物を観察できる蛍光顕微鏡、より空間分解能が高い電子顕微鏡など多岐にわたる顕微鏡が開発されてきた。蛍光顕微鏡の発展には蛍光タンパク質技術が大きく関係しているが、その礎となる緑色蛍光タンパク質(Green Fluorescent Protein, GFP)を発見した下村が2008年にノーベル化学賞を受賞した。また、近年でも光学限界を超えた空間分解能を実現する超解像顕微鏡が2014年に、また生体分子の立体構造解析のための電子顕微鏡技術であるクライオ電子顕微鏡が2017年にノーベル化学賞を受賞するなど、顕微鏡技術がいかに大きなインパクトを与えているかを伺い知ることができる。

「見る」ことができるということは、単に現象が可視化されるという意味に留まらず、生命科学研究の発見の新たなプロセスを確立したということができる。これまで、還元主義的な解析により細胞や組織など個別の要素については多くの発見がなされているが、各要素が生体内でどのように相互作用しているかについては直接観測することはできず、生物学者が想像することしかできなかった。顕微鏡技術の進展により「生きたまま」「生体内部を」「リアルタイムに」観察する生体イメージングが可能になり、従来の止まった形態情報に加え、時間軸を持った動態情報を用いて仮説の検証ができるようになった。

生体イメージングの一例として、蛍光顕微鏡を発展させた二光子励起顕微鏡で撮影した画像を図1に示す。本データは、炎症時のマウス耳介部の皮膚の中の免疫細胞の活動をタイムラプス撮影したものである。画像中では蛍光タンパク質であるEGFP(Enhanced GFP)を用いて白血球の一種である好中球が緑色に標識されている。また、青色チャンネルは第二次高調波発生(Second Harmonic Generation, SHG)を利用して可視化されたコラーゲン繊維である(本来は奥行き方向を持つ三次元画像であり、また時系列画像である)。このような生体イメージング技術を用いることで、生体内のありのままの様子を観察することができる。

図1

二光子励起顕微鏡による生体イメージングの例(大阪大学大学院医学系研究科免疫細胞生物学 石井優教授提供)

顕微鏡技術の発展は生物学に大きなインパクトをもたらした一方、得られる画像も高精細化・多様化し、膨大なものとなっている。また、ロボットやセンサ技術、撮影自動化技術の進展はデータの取得機会や回数を増加させている。大量のデータを前に手作業による解析が困難になってきており、どのようにデータを解析し定量化を行うかが重要な問題となってきている。また、人の手で解析ができると思われるデータであっても、データ選定の選択肢が増えた結果、見えやすい箇所や見たい箇所のみを選んで見る、という研究者の主観的なバイアスが入ってしまう危険性も高まってしまう。そのため、生物画像解析技術など情報科学を用いたアプローチが求められるようになり、このような問題を扱う研究分野「バイオイメージインフォマティクス」が注目を集めるようになった[1, 2]。これまでも医用画像情報の分野でCT/MRI画像や病理画像など臨床や医学で得られる画像データを対象に画像解析技術を用いる研究は広くなされてきたが、主として生物学的知見の発見を目指すバイオイメージインフォマティクスとは別分野とされている。2012年にはBioinformatics誌にBioimage Informaticsが新カテゴリとしてアナウンス[3]され、また同年Nature Methods誌にも特集が組まれた。生物画像解析に関する論文数も増え続けており[4]、世界的に注目を浴びていることが伺える。

2.画像解析の困難さ

これまでコンピュータビジョンの分野では様々な画像解析手法が提案されてきたが、これらを生物画像に直接適用することは困難である。例えば、ミクロの世界では細胞が分裂・融合したり、極めて複雑に変形したりするというような事象が存在するが、一般的な画像解析手法はそのような仮定をおいていない場合が多い。生物画像は画像中に色ムラやノイズを含んでいるケースも多く、また個々の細胞が単なる輝点でしか表わされないことも多いため、細胞同士が重なっている場合にうまく分離できない場合がある(目視でも細胞同士が重なっているのか、一つの細胞が変形しているのかの見分けがつかない場合がある)。蛍光顕微鏡においては、観測対象を直接観察するのではなく、組織内部の蛍光物質を間接的に撮影している。そのため、蛍光物質が組織中央に偏在しているようなケースでは、組織の境界付近に蛍光物質が存在しないため組織の境界が曖昧であったり見られなかったりする場合もある。また、データ量が膨大になる傾向があるという問題は一般的な画像解析にも見られるが、生物画像では三次元かつ時系列の高精細データを扱う場合などもある。先ほど示した図1の二光子励起顕微鏡の例でもこれらの特徴を見て取ることができる。例えば、画像中にノイズが多く、また細胞それぞれの色は均一ではなく濃淡が強く出ていたり、細胞が複雑な形状をしていて1つの細胞であるのか2つの細胞が重なっているのか区別がつかなかったりする場合も多い。さらに細胞が密集した場合、細胞一つ一つを認識することが困難になることは容易に推測できる。また、好中球の動きや形の時間変化を解析する場合には、三次元かつ時系列での膨大なデータを解析することが必要となる。このような生物画像の特徴は、解析対象組織や用いる顕微鏡などにより多岐に渡る。このような理由により、一般的な画像解析手法を適用するだけでは十分に解析を行うことができない場合が多く、また様々な特徴の画像に対応できる画一的な解析手法を確立することは困難であることから、撮影対象画像ごとに解析手法が研究されているのが現状である。

目的や観測対象により画像の具体的な解析方法は大きく異なるが、ここでは画像解析で行われる典型的な処理について述べる。多くのケースではまず、画像中に存在する物体の領域分割(セグメンテーション)や物体検出を行い、それぞれの物体を認識する。領域分割は観測対象の画像の各画素がどのカテゴリ(例えば前景か背景か)に属するかを求める方法である(図2(左)に細胞と背景を領域分割した例を示す)。また、細胞など個別の要素を一つ一つ認識せずに解析を進める場合もある。例えば、画像中の細胞の密度が高く個々の細胞を認識できない場合でも、細胞全体が同じ傾向を持って動いている場合は、画像内の小領域が次の時刻にどの位置に移動しているかをベクトルの集合で表現するオプティカルフロー技術などを用いて細胞が移動する方向を定量化することができる場合もある。また、細胞などの動きの解析を行う際には物体追跡(トラッキング)が行われる。生体内では動かない組織も多いが、図1中の好中球は生体内で動きを伴うため、各時刻の画像でそれぞれの細胞を検出し、それぞれの時刻の間で細胞の対応付けを行うことで、時間とともにどのような運動をしているかを調べることができる(図2(右)にこの方法を用いて物体追跡する例を示す)。このようにして得られた情報から観測対象の面積や形状を定量化したり、画像中の要素の個数を計数したりすることができる。細胞の分裂の瞬間や、特定の組織同士の接触の瞬間などイベント検出を行う場合もある。蛍光タンパク質技術を応用し、ある調べたい化学反応や特定の遺伝子が発現する際に蛍光の状態が変化するように実験を設計すれば、色の変化で反応や遺伝子発現の度合いを可視化・定量化することが可能である。現象の定量化ができれば、特定の試薬を利用した場合としなかった場合の変化を比較することで、試薬の効果を定量的に比較することも可能となる。このように様々な解析方法があるが、どのような解析を行うべきかについては注意深く検討する必要がある。

図2

画像解析の一例

これらの解析を行う方法としては、一般的な画像解析や機械学習、数理最適化などの情報科学の技術をベースに、対象の生物画像の特徴に対応できるように工夫を加える方法が一般的である。本稿では個々の画像解析手法の詳細については扱わないが、文献[5]に詳しく記載されている。領域分割一つとっても様々な対象にロバストに適用できる方法はなく、対象画像の性質に合わせた手法の研究が行われている。その他、生物画像特有の特徴に対応できる手法を確立することが研究課題となる。合わせて、三次元や時系列の巨大なデータを扱ったり、大規模データに複雑な画像処理を行ったりする場合は計算量が莫大になりやすいため、現実的な処理時間で完了できる解析方法を模索する必要がある。その他の研究課題として、顕微鏡そのものに焦点を当ててノイズを除去したり解析しやすい画像を再構築したりする研究や、同種の観測対象に対して複数の顕微鏡で撮影された画像を統合解析するマルチモーダル画像解析、三次元での位置合わせ(レジストレーション)、大規模データのインタラクティブな分析手法の開発、後述の機械学習の応用方法など研究課題は多岐に渡る。

3.機械学習の応用

生物画像の解析では、像の自動分類やノイズ除去、領域分割、物体追跡、クラスタリングを始め、様々なところで機械学習が広く利用されている。とりわけ近年はディープラーニングの登場により、画像解析手法が大きく進歩したことは周知の通りである。これまでの機械学習では、データから特徴を抽出し、パターン認識を行う2段階のワークフローが一般的であった。すなわち、生物画像から物体の特徴を抽出し、次に機械学習分類器を用いて、抽出された特徴に基づいてパターン認識を行う。この時、どのような特徴量を設計し、どのようなデータで学習させて精度を上げるかということが研究の大きな焦点となる。筆者らが二光子励起顕微鏡で撮影された骨組織画像から特徴領域を認識する手法を提案した際もこのようなアプローチを採用していた[6]。一方で、ディープラーニングは従来の方法に比べてモデルが近似できる関数の集合が広範囲になり様々な問題に適用できるようになったのみならず、このような特徴自体をデータから自動的に抽出できるようになり、高い精度を達成するようになった。

しかしながら、生物画像に機械学習を応用する場合においても大きな課題が存在する。まず、データセットの数が機械学習に応用するための十分な量が確保できない問題が挙げられる。観測対象や顕微鏡などが多種に渡るため、同一条件で得られるデータが十分数確保できない場合がある。得られるデータは高精細化・多様化しているものの、一つ一つのデータセットの作成には手間と時間がかかるケースも少なくないため、同種のデータを多く用意することが難しいケースも多い。特にディープラーニングではモデルが様々な関数を近似できる反面、学習には多くのデータを必要とするため、少数のデータセットを用いた学習では汎化性能が上がらないという課題がある。

また、機械学習を応用する場合には合わせて教師データを多く用意する必要がある場合が多い。機械学習は大きく教師あり学習と教師なし学習に分類される。教師あり学習は、それぞれのデータに対して教師データ(正解データ)を同時に与える方法である。例えば、画像中にがん細胞が含まれるかを判定させたい場合、それぞれの画像とともに「がんを含む」「がんを含まない」という情報(正解データ)を一緒に与えて学習させる。画像単位でがんの有無を予測するだけでなく、画像中のがんの領域を予測したい場合は、画素ごとに「ここはがん細胞の領域である」「ここはがん細胞の領域でない」という正解データを用意して学習させることでがん細胞の領域分割ができるようになる。一方、教師なし学習は正解データを与えず、データのみから学習を行う手法である。データを複数のグループに分類するクラスタリングなどが教師なし学習に該当する。ディープラーニングは利用方法により教師あり学習、教師なし学習それぞれに応用できるが、教師あり学習を用いて教師データを学習させる方法が広く用いられている。ディープラーニングは多くのデータが必要であることを述べたが、教師あり学習を用いる場合はそれに対応して教師データも十分な数を用意する必要がある。その一方で、膨大なデータから正解データを作るのにも非常に大きな手間がかかる。例えば、画像中のがん細胞を正確に領域分割したい場合、それに対応して高精細な画像から画像中のがん細胞の領域を人の手で正確に塗り分けたデータを大量に作成する必要がある。この作業は誰でもできるものではなく、経験を積んだ専門家による手作業が必要となるため、クラウドソーシングにより正解データの作成を外注する方法も用いることができない場合が多い。図1に示した二光子励起顕微鏡の例では、データは三次元画像で得られているため、細胞領域を認識するための教師データを作成するためには、三次元で細胞を塗り分ける必要が発生するが、三次元での教師データ作成は容易ではない。以上のような理由から、教師データを作成するにしても十分な数が確保できなかったり、大雑把で不完全な教師データしか用意できなかったりする場合も多い。また別の問題として、画像に曖昧性を含む場合や、専門家でも意見が分かれる場合などもあり、教師データ自体に曖昧性や一貫性がない場合も多く存在する。このようなデータで機械学習を行うと精度が十分に上がらないという問題が発生する。データは数が多いほど、教師データは正確であるほど機械学習の精度が上がるが、生物画像においてこれらの問題が大きな課題となる場合が多い。

データセットの問題に対し、限られたデータセットをいかに効率よく利用して精度を上げるかという研究が広く行われている。従来の機械学習の手法は少数のデータでも良い結果を出すものが多く存在したため、バイオイメージインフォマティクスの分野でも広く使われてきた。他方、主にデータ数の問題からディープラーニングの導入は困難であった。近年は少ないデータ、また誤りを含む教師データからディープラーニングの学習を行う半教師あり学習や弱教師あり学習、また教師なし学習や類似した画像で学習したモデルを目的のタスクに転用する転移学習やドメイン間学習など様々な研究が行われている。バイオイメージインフォマティクス分野全体でも学習データ不足に対する解析手法の研究が進んでいることもあり、ここ3~4年の間に急速にディープラーニングベースの解析手法が研究されるようになった[9, 10]。

4.近年の研究動向

ここでは研究動向や研究事例についてタスクごとに分けて紹介する。画像の分類に関しては、ディープラーニングが最も得意とする領域であり、様々な種類の画像に適用されている。画像解析において最も基本となるニューラルネットワークである畳み込みニューラルネットワーク (Convolutional Neural Network, CNN) が広く使われており、ネットワーク構造も一から設計するのではなく、VGG16[7]やMicrosoft社のResNet[8]など成熟したネットワークをベースにすることが一般的になっている。このネットワーク構造を工夫するなどにより様々な問題に対応することができる。画像分類の研究事例としては、高スループットな顕微鏡により得られる酵母細胞画像からタンパク質の細胞内の局在性を分類するDeepYeast[11]の事例などが挙げられる。また、何が画像中に含まれているかを推測する物体検出のタスクに関しても、分類問題と同じディープラーニングを用いることができる。しかしながら、一般的なCNNでは一つの画像入力に対して一つの出力しか与えないため、複数の物体が同じ画像中に移りこんでいる場合、それぞれを判断することはできない。この問題に対する初期の試みはR-CNN (Regions with CNN) である。物体が写っていると考えられる画像中の領域をまずは複数切り出し、切り出したそれぞれの画像からCNNを用いて物体の予測を行う方法である。近年は様々な改良が加えられており、Faster R-CNN [12]や you-only-look-once (YOLO) [13] などが広く用いられている。これらの技術も生物画像への応用が始まっている。R-CNNベースの手法であるMask R-CNN[14]と従来の解析手法を組み合わせ、位相差顕微鏡と呼ばれる顕微鏡で得られた画像から細胞核を抽出した事例[15]などがある。

また、ディープラーニングが得意とする他のタスクとして画像の超解像やノイズ除去などが挙げられる。高解像度の画像やノイズを含まない画像を学習したモデルを用いて、低解像度の画像を高解像に復元したり、ノイズを除去したりすることもできる。生物画像に応用された事例としては、光学顕微鏡に超解像を適用した研究[16]などがある。

領域分割についても、近年はディープラーニングベースの手法が広く使われている。U-Net[17], SegNet[18], DeepLab[19]などの完全畳み込みニューラルネットワークや、Mask R-CNNなども利用される。生物画像への応用例としては、ニューラルネットワークをピクセル分類器として使用し、ニューロン膜を領域分割した事例[20]や、線虫の胚の顕微鏡画像に対し、細胞や核の位置を特定するためにセグメンテーションネットワークと検出ネットワークを組み合わせ.各ピクセルを細胞壁、細胞質、核膜、核、外部媒体の5つのカテゴリに領域分割(分類)するように学習させた事例などがある[21]。また、物体追跡に関しては伝統的なコンピュータビジョンの技術をベースにした手法を用いて解決されていることが多いが、近年はディープラーニングベースの手法が取り入れられつつある。研究事例としては、細胞の検出と追跡を統合的に行うMPM (Motion and Position Map)を用いた追跡法[22]や、弱教師あり学習とCNNを用いて細胞追跡を行った研究[23]などが挙げられる。

また別のアプローチとして、教師データ自体に焦点を当てた研究も行われている。教師データに前処理を行って学習効率を高めたり、教師データを作成するツールを開発したりするなどの取り組みなどがある。米国国立衛生研究所が開発したImageJ[24, 25]は広く生物画像を扱うことができる汎用ツールで、様々な処理を加えることができる他、教師データの前処理にも利用される。ウェブベースのCytomine[26]等、これまでよりも少ない負荷で教師データを手動作成するためのツールの開発も進んでいる。

5.おわりに

本稿では、顕微鏡技術の進展に伴って広く研究されるようになった生物画像解析に焦点を当て、バイオイメージインフォマティクス分野の研究課題や動向について述べた。今後の展望として、画像解析手法はさらに発展し、少ないデータや教師データでの解析手法が成熟していくことが予想される。また、近年はディープラーニング技術が取り入れられるようになったが、これからさらにディープラーニングの応用が進み、様々な解析法が登場することが予想される。さらに、生物画像解析だけに留まらず、画像解析と遺伝子発現解析を融合するなど、バイオインフォマティクスと画像解析技術が融合してさまざまな解析手法が登場し、さらなる生物学の発展につながることが期待される。

References
著者略歴

繁田 浩功
大阪大学大学院情報科学研究科情報システム工学専攻を修了。博士(情報科学)。現在、同大学院バイオ情報工学専攻の助教として、生物画像等の画像解析を扱うバイオイメージインフォマティクス分野を中心とした研究に従事している。

 
© 2021 Japan Society for Bioinformatics

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top