2022 年 21 巻 2 号 p. 58-60
In recent years, the remarkable advances in artificial intelligence technology have led to digital transformation (DX) in various fields. The automated construction of laboratory notebook through filming experiments is a promising application of image recognition for chemistry. In this study, we created an image dataset of chemical experiment, which contains 2376 images and consists of 7 classes of objects. Object detection methods and a multiple object tracking method were implemented and assessed using the dataset toward to develop automated laboratory notebook system.
In recent years, the remarkable advances in artificial intelligence technology have led to digital transformation (DX) in various fields. The automated construction of laboratory notebook through filming experiments is a promising application of image recognition for chemistry. In this study, we created an image dataset of chemical experiment, which contains 2376 images and consists of 7 classes of objects. Object detection methods and a multiple object tracking method were implemented and assessed using the dataset toward to develop automated laboratory notebook system.
近年の人工知能技術の進化に伴い,多くの分野でdigital transformation (DX) の進展が期待されている.化学分野におけるDXの例として,実験風景の画像認識による電子実験ノートの自動作成,実験中の危険な動作の検知,実験操作の評価などが考えられる.特に,電子実験ノートの自動作成は,実験者の労力の削減や誤りの防止のみならず,実験者が認知していない実験の成否を分ける要因の発見など,化学実験における情報の増加も期待できる.実験ノートの自動作成には,画像中の実験器具や実験者の位置と種類を認識する物体検出およびビデオ中で同一の器具を一意に定める物体追跡の技術が必要である.また,学習のための化学実験に特化した画像デ―タセットも必要である.これまでに,化学実験器具に関するデータセットの作成 [1],実験器具に対する物体検出の数値検証 [2]について報告があるが,化学実験の画像認識研究は極めて限定的である.本研究では,画像認識に基づく実験ノートの自動作成に向けて,化学実験画像データセットの独自作成,物体検出および物体追跡の実装と数値検証を行った.
化学実験画像データは,有機化学系研究室にてスマートフォンを用いた動画撮影を行い,そこから画像を切り出すことで作成した.実験室で使用される頻度の高い6種類の器具 (conical beaker, Erlenmeyer flask, reagent bottle, pipette, eggplant shaped flask, separatory funnel)およびhandを加えた7種の物体を検出対象とした.背景が異なるフレームにおいて,物体のラベルと座標を記したアノテーションを作成した.アノテーションは,visual object tagging tool (VoTT) [3]を用い,手動でPASCAL VOC [4] 形式の化学実験画像データを作成した.Table 1に,作成した画像データの内容としてそれぞれのデータ中の物体の種類 (Class),画像数 (Img),物体数 (Obj) を示す.データは,学習データ,最適な学習回数とハイパーパラメータの決定に用いる検証データ,未知データへの予測精度を評価するテストデータに分割した.学習に用いたハイパーパラメータはSupporting Informationに示す.
Class | Training | Validation | Test | |||
Img | Obj | Img | Obj | Img | Obj | |
Hand | 584 | 696 | 72 | 75 | 51 | 59 |
Conicalbeaker | 433 | 484 | 64 | 68 | 61 | 64 |
Erlenmeyer flask | 638 | 715 | 76 | 93 | 84 | 101 |
Reagent bottle | 592 | 945 | 72 | 150 | 32 | 60 |
Pipette | 229 | 231 | 92 | 95 | 40 | 44 |
Eggplant shaped flask | 673 | 712 | 87 | 97 | 49 | 52 |
Separatory funnel | 242 | 242 | 27 | 27 | 25 | 25 |
Total | 1882 | 4025 | 289 | 605 | 205 | 405 |
本研究では,実験の様子をビデオ撮影し,リアルタイムに推論することを念頭に,高速に動作する物体検出および物体追跡手法を実装した.物体検出手には,single shot multibox detector (SSD) 300 [5]およびyou only look once (YOLO) v3 [6]を用いた.これらの手法は,物体の領域とクラス分類を同時に学習するアルゴリズムである.物体追跡手法には,simple online and realtime tracking (SORT) [7] を用いた.SORTは,カルマンフィルタによる予測とハンガリアンアルゴリズムによる割り当てを行う.物体検出および物体追跡はPythonを用いて実装した.SSD300,YOLOv3,およびSORTは,PythonのニューラルネットワークライブラリPyTorchに基づく公開プログラムを用いた [8,9,10].
物体検出の評価指標には,average precision (AP) およびmean AP (mAP) [11]を用いた.APは,各クラスの物体の識別精度を表す0から1の間の値で,1に近いほど高精度に認識したことを表す.mAPは各クラスのAPの平均値である.学習の結果,SSDが114 epoch,YOLOv3が271 epoch で検証データに対するmAPが最大となった.これらのモデルを最適とし,以降の検証に用いた.Table 2に,SSDおよびYOLOv3による各クラスのAPとmAPを示す.mAPはそれぞれ0.697,0.677であった.APはpipetteを除き0.65を上回った.mAPは0.8ほどで実用可能な予測精度と言われており, 本研究で得られたモデルは画像認識が機能しているといえる値である.Pipetteはその角度に応じて矩形領域のアスペクト比が大きく変化する特徴があり,他のクラスに比べてより多くのデータ数を必要とするものと考えられる.
Method | mAP | Hand | Conical beaker | Erlenmeyer flask | Reagent bottle | Pipette | Eggplant shaped flask | Separatory funnel |
SSD | 0.697 | 0.776 | 0.796 | 0.814 | 0.693 | 0.335 | 0.744 | 0.721 |
YOLOv3 | 0.677 | 0.721 | 0.652 | 0.780 | 0.708 | 0.286 | 0.820 | 0.769 |
物体検出の速度はSSDが34.9 fps,YOLOv3が70.7 fpsと,YOLOv3のほうが高速であった.物体追跡の検証にはYOLOv3を用いた.Figure 1にSORTの実装前後の検出結果を示す.SORT実装前では動画中の画像に対して物体検出を行うのみである.一方,SORTの実装により,物体に固有のIDを割り当て,追跡することができた.また,物体が短時間遮蔽物に隠れる,あるいは未検出の際もカルマンフィルタによる予測によって補間することができた.ただし,物体同士が重なることでIDが入れ替わったり,同じ物体であっても数フレームの間未検出だった場合補間できていなかったりする事象も存在した.SORTは物体検出モデルに大きく依存する手法であるため,物体検出モデルの精度改善によりこれらの課題は改善すると考えられる.
Object detection results before (upper) and after (lower) implementation of SORT.
本研究では,化学実験データセットの作成および物体検出,物体追跡手法の実装と数値検証を行った.物体検出手法のSSDとYOLOv3はデータセットに対して正しく機能した.また,物体追跡手法であるSORTの実装により,異なるフレーム間で実験器具を追跡することができた.本研究の成果は,実験画像データセットの追加による物体検出モデルの改善,実験操作を自動認識する行動認識の実装のもと,実験のフローチャートを作成することで,電子実験ノートの自動作成に繋がると考えている.この技術による無意識の実験条件の可視化や,実験データの均質化は,化学実験の発展に貢献すると期待される.