農研機構研究報告
Online ISSN : 2434-9909
Print ISSN : 2434-9895
ISSN-L : 2434-9895
総説
リモートNMR 分光分析供用システムの開発と農研機構統合データベース 及びAI 研究用スーパーコンピュータ「紫峰」との連携
伊藤 研悟 伊達 康博川村 隆浩大城 正孝江口 尚小野 裕嗣
著者情報
研究報告書・技術報告書 フリー HTML

2023 年 2023 巻 13 号 p. 3-22

詳細
Abstract

昨今の Society 5.0 及びポストコロナ時代において,研究現場ではリモート環境からデータ駆動型研究を加速させる高度な機器分析と情報連携基盤の開発が求められている.そこで農研機構では,リモート核磁気共鳴分光分析,データ駆動型解析及び機器分析データの一元管理をワンストップで提供する解析パイプラインを開発した.本パイプラインに合わせて長時間連続稼働が可能な自動前処理装置を利用することで,均質かつ均一な機器分析用試料の調製を可能にし,省人化・省力化を実現した.また,試料を約 500 点セットが可能なオートサンプルチェンジャーを装着した溶液核磁気共鳴分光分析装置とリモート分析制御装置も導入し,簡便かつ安定なリモート分析の自動実行を可能にした.さらに,人工知能研究用スーパーコンピュータ「紫峰」と農畜産物のゲノムや成分などが格納された大容量の農研機構統合データベースを連携させることで,機器分析データの迅速なデータ駆動型解析とメタデータを含む機器分析データの一元管理を可能にした.この新たな基盤システムを利用することで,リモート環境にいる異分野の研究者同士がデータを介して繋がり,データ駆動型農業研究の促進や発展が期待される.

はじめに

核磁気共鳴(NMR: Nuclear Magnetic Resonance)分光法は核スピン量子数(I)が 0 でない原子核を観測対象とする機器分析手法の 1 つであり,原子核が構成する分子の化学構造,運動性,物質量に関する情報を得ることが可能なため,化学,薬学,材料科学,環境科学,生命科学などの分野に幅広く利用されている(阿久津ら 2016).特に,有機化合物を構成する1H 核及び 13 C 核が高分解能な化学シフトと NMR 信号強度情報を含む NMR スペクトルを取得しやすい I=1/2 の核種であるため,農畜産物や食品,農薬などに含まれる成分の一斉検出と成分の同定,物性評価や化学構造解析に有用である.また,高い NMR 信号検出感度が得られる 1 次元 1H NMR 分光分析では,濃度比が大きく異なる複数化合物を含む試料であっても,数分から数十分程度の積算計測により各化合物について十分な NMR 信号雑音(S/N: Signal/Noise)比の NMR スペクトルが得られることから,データ産出のスループット性が高いといった利点がある(関山 2016).

一方で,NMR 分光分析用の均質かつ均一な溶液試料の調製では,工数の多い重溶媒を用いた成分抽出操作が必要となり,試料点数が膨大になると,これらの工程が律速となって NMR 分光分析のハイスループット性を十分に活用できないという課題がある.そこで,ロボティクス技術による自動化をこれらの工程に適用することで,作業時間の短縮だけでなく,試料調製や機器分析工程が機械的に統一されることによりヒューマンエラーの回避も可能となる.これにより,膨大な機器分析データを必要とするオミクス分野の研究においても,自由誘導減衰(FID: Free Induction Decay)データ,NMRスペクトルなどの前処理済みデータ及び NMR 分光分析のパラメータ等を含む NMR 分光データの効率的,均質的かつ均一的な収集が可能となる(Dona 2018).

未来社会構想「Society 5.0」では,前述のロボティクス技術に加え,ビッグデータを踏まえた人工知能(AI: Artificial Intelligence)の活用により,今までにない新たな価値を生み出し,様々な課題や困難の克服を目指している.そこで,膨大な NMR 分光データにおいても,データの一括読み込みと数値変換,データ駆動型解析や AI 解析とその結果を可視化することで,人の目では判断が困難な特徴やパターン,バイオマーカーなどの発見に繋がり(Kikuchi et al. 2018),農業及び食品分野における機能性食品の開発,品種改良,創農薬などの研究促進が期待される.しかしながら,信頼性の高い結果を得るためには,NMR スペクトルの前処理を正しく行うと共に,データ駆動型解析や AI 解析のアルゴリズムを理解する必要がある(Chong et al. 2018).また,NMR 分光分析用試料が混合物の場合は,NMR スペクトルから試料に含まれる成分を高い確度で推定することも重要である(Yamada et al. 2019).すなわち,膨大な労力や高度な専門知識が必要であり,利用が簡便でデータの解釈が容易となる NMR スペクトルの前処理,データ駆動型解析及び可視化ツールの開発が望まれている.さらに,ビッグデータのデータ駆動型解析には膨大な計算コストがかかるため,大規模な計算基盤上で操作が可能なデータ解析ツールが必要である.

また,NMR 分光データ及びデータ駆動型解析の結果を研究者個人や研究チーム等で将来にわたって長期的に整理及び管理し,高い可用性を維持し続けることは一般的に困難である.そのため,成分抽出前の試料や NMR 分光分析などに関するメタデータを含めた NMR 分光データ及びデータ駆動型解析の結果を,専門知識が不要で研究者個人の直接利用が可能な統合データベースに登録及び整理すると共に,組織の高いレベルの意思決定によりデータベースシステムが管理及び維持される必要がある(川村ら 2021Kawamura et al. 2022).これにより,将来にわたって必要な機器分析データの探索や収集,二次利用やメタ解析を行うことが可能となる.

しかしながら,これらの高度な分析装置や情報基盤の導入及び運用には多くの費用や時間,労力がかかると共に,高度な専門知識が必要である.また,昨今の新たな感染症の蔓延に伴う緊急事態により,外出や移動に制限がかかるという問題も生じており,移動が困難な状況でもリモート環境から高度な分析装置及び情報基盤を安全かつ簡便に利用が可能なシステムが望まれている.

そこで農研機構では,これらの課題を解決するために,NMR 分光分析及びデータ駆動型解析とデータ管理が簡便なリモート操作からワンストップで行える解析パイプラインの開発に取り組んでいる(図 1).本稿では,このパイプラインにおける NMR 分光分析用試料調製のための自動前処理技術と NMR 分光分析の自動化システムについて解説する.また,堅牢な情報セキュリティ下で運用しているリモート NMR 分光分析供用システムの開発の取り組みを紹介する.さらに,それを構成するリモート NMR 分光分析制御装置である NMR ワークステーション(WS: Work Station),AI 研究用スーパーコンピュータ「紫峰」及び農研機構統合データベース(NARO Linked DB: National Agriculture and Food Research Organization Linked Database)のネットワークハードディスク(NAS: Network Attached Storage)を経由したデータ連携,データ駆動型解析ツールの利用方法,NMR 分光データとデータ駆動型解析の結果の一元管理及び利活用するシステムについても紹介する.

図 1. NMR 分光データ解析パイプラインの全体像

NMR 分光分析における自動化システムの特徴

NMR 分光分析用試料の自動前処理

溶液 NMR 分光分析装置を用いた機器分析では,重溶媒に完全溶解している成分由来の NMR 信号のみが観測され,不溶物は NMR 分光分析の妨げとなるため,固体試料の重溶媒への溶解,成分抽出,遠心分離や濾過による清澄化等の操作を適宜組み合わせて行う必要がある.本稿の自動前処理はこれらの工程を対象としている.なお,NMR 分光分析に必要な試料量は微量であるため,食品や農産物,生体由来のバルク試料からのサンプリングについては適切なインクリメントサイズや反復の設定,凍結乾燥や粉砕等を適宜組み合わせた均一化と縮分操作等による代表試料の採取をあらかじめ適切に実施しておく必要がある.

成分抽出操作が必要な凍結乾燥粉末を例とした,一般的なメタボロミクス用の試料調製手順は以下のようなものである.乾燥重量 5~50 mg の粉末試料に対し重溶媒を 600~1000 µL 加え,加熱及び攪拌により成分を抽出する.その後,遠心分離し,上清を採取して NMR 分光分析用試料管へ充填する(Kim et al. 2010).これらの調製工程は単純作業であるものの,手作業で行う場合,試料点数に比例して労力が増大するだけでなくヒューマンエラーが発生する確率も高くなる.近年,プロテオミクス分野における定量的質量分析のための再現性の高い自動化された機器分析用試料調製のワークフローが報告された.これは,質量分析に供試する試料の複雑な調製にロボティクス技術を取り入れており,質の高い機器分析用試料を自動かつ高速に調製することが可能となった(Fu et al. 2018 ).そこで,NMR 分光分析用試料調製においてもロボティクス技術を用いた前処理装置を導入することで,NMR 分光分析に供試する試料を大量,高速,均質かつ均一に自動調製することが可能となると考えられた.

NMR 分光データ解析パイプラインに導入した自動前処理装置は CTC Analytics AG 社製 PAL RTC 2000 モデルを基盤にしており,分注,攪拌,加熱及び遠心分離等の単位操作を行うユニットの選定とカスタマイズを行い,これらを制御するパーソナルコンピュータ(PC: Personal Computer)とプログラムから構成されている(図 2).本機による前処理操作は,ガラスバイアル瓶に入った粉末試料をトレイホルダーにセットし,重溶媒ボトルや空のガラスバイアル瓶等の消耗品を定位置に準備した後,試料毎に最適化された成分抽出方法を選択し,動作プログラムを実行する.例えば,容器内の試料に重溶媒を添加,加熱による成分抽出,遠心分離,上清を吸引,別容器に吐出及び冷蔵庫に保管の一連の工程がプログラムに定義されており,各々の単位操作を行うユニットの間をロボットアームがガラスバイアル瓶を移動させて行われる.また,前処理操作の連続自動実行も可能である.ガラスバイアル瓶に入った粉末試料の準備は人の手で行う必要があるものの,その後の NMR 分光分析用試料管への分注作業は,Integra Biosciences 社製 Assist Plus などの汎用的なピペッティングロボットにより簡便に行うことが可能である.

本システムを導入することで省人化・省力化が図れ,結果的に NMR 分光分析のスループット性に見合う試料の供給力が向上した.また,NMR 分光分析用試料調製の未経験者でもヒューマンエラーの心配が少ない均質かつ均一な試料調製が可能となった.

図 2. NMR 分光分析用試料の自動前処理装置の構成

NMR 分光分析の自動化

溶液 NMR 分光分析装置を用いたメタボロミクス分野における機器分析手順としては,装置への試料管のセット,超電導磁石中のプローブ内での試料管の昇降,重溶媒ロック,プローブの高周波(RF: Radio Frequency)コイルのチューニング,シムコイル電流量の調整,NMR 分光分析のパラメータ設定及び測定の開始となる.NMR 分光分析用試料管が複数ある場合では,この手順を繰り返し行うため,手動で行うには多くの手間がかかる.そのため,溶液 NMR 分光分析装置には,試料管を自動的に入れ替えが可能なオートサンプルチェンジャーが付帯しており,フローインジェクションシステム,重溶媒ロック,プローブチューニング,シムコイル電流量の調整及び NMR 分光分析の実行を自動で制御するシステムを導入することで,多検体の NMR 分光分析を自動化することが可能である(Dona 2018).

本稿で示すNMR分光データ解析パイプラインでは,極低温プローブである ruker 社製クライオプローブを装着した既存の同社製 800 メガヘルツ(MHz: megahertz)溶液 NMR 分光分析装置に同社製オートサンプルチェンジャーの SampleJet と Avance NEO コンソールを導入し,自動制御システムを運用することで多検体の連続自動 NMR 分光分析を実現した.オートサンプルチェンジャーを使用する場合,96 本の NMR分光分析用試料管を 1 ラックにセットすることが可能であり,最大で 96 本 × 5 ラック分の NMR 分光分析が可能となる(図 3).NMR 分光分析の実行パラメータの設定と NMR スペクトルの前処理や画面表示は Bruker 社製 TopSpin ソフトウェアにより制御を行い,多検体の NMR 分光分析の連続自動実行は,サンプルチェンジャーを自動制御する同社製 IconNMR ソフトウェアによりグラフィカルユーザインターフェース(GUI: Graphical User Interface)操作で行う(図 3D).これにより,夜間においても NMR 分光分析の連続自動実行が可能となり,多検体の NMR 分光分析と NMR 分光データ産出のスループット性が向上した.

図3. NMR 分光分析の自動化システム

リモート NMR 分光分析供用システムの開発と情報セキュリティ対策

第 1 期リモート NMR 分光分析供用システム開発の取り組み

農林水産研究は圃場や食品加工の現場と密接に結びついており,地理的に集約が困難であることから,研究現場は分散せざるを得なく,それぞれの分野に専門知識を持つ研究者も各地に点在している状況にある.一方で,溶液 NMR 分光分析装置といった研究活動に必要となる高度な分析装置は,特殊施設や高額の維持管理費を要するため,保有する機関や場所は限られている.そのため,農業現場と機器分析現場の円滑な連携を図る技術開発は従来から重要な課題として挙げられていた(関山ら 2020).また,昨今では,食糧問題や環境問題といった様々な社会問題が顕在化してきており,有効な研究成果の社会実装が求められてきていることから,リモート環境も含めた多様な研究者との産学官の連携が必要とされている.しかし,空間的側面,時間的側面及びコスト面で研究者や研究設備間の連携を困難にしている.これらの問題を打開するには,強力な情報インフラを介して研究者や研究設備を繋ぐ新たなシステムの構築が必要であった.

そこで,2001 年から 2005 年の間,農林水産研究情報デジタルコミュニティ構築及びバーチャルラボシステム開発の構想の下で最初のリモート NMR 分光分析供用システムは試験的に構築された.リモート NMR 分光分析供用システムのための機器設定として,溶液 NMR 分光分析装置側は,制御用 WS,Webカメラ,Web カメラの操作と映像表示が可能な PC,インターネットプロトコル(IP: Internet Protocol)電話サーバ及び電話会議システムを導入した.また,リモート環境側は,WS,Web カメラ,Web カメラの操作と映像表示が可能な PC,IP 電話サーバ及び電話会議システムを導入した.リモート環境から溶液NMR分光分析装置のリモート操作は,インターネットを通して X-Window システムにより行うことが可能であった.また,Web カメラ,IP 電話サーバ及び電話会議システムにより研究者間のコミュニケーションを取ることも可能であった.しかし,リモートシステムの利用機関へ専用の機材を設置する必要があり,また,農研機構以外のネットワークからのアクセスは情報セキュリティの面で困難であるといった課題が残った.

第 2 期リモート 分光分析供用システム開発の取り組み

リモート NMR 分光分析供用システムの第 2 期の取り組みは 2021 年から構築中である.この背景として,2020 年以降,新型コロナ感染症拡大により人の移動と接触が制約され,他機関を訪問して分析機器を利用することが困難となった. そのため,この制約の長期化による研究活動の停滞が懸念され,機器分析現場においてはリモート操作での溶液 NMR 分光分析装置の供用が求められてきている.日本電子社においても,リモート操作が可能な溶液 NMR 分光分析装置のシェアリングサービスの提供を開始しており( https://www.jeol.co.jp/support/sharing/nmr/),リモート操作が可能な分析機器利用サービスやシステムは今後さらに増えていくと予想される.一方で,機密情報を含む研究データを産生する分析機器においては,堅牢で安全な情報セキュリティ下で運用する必要がある.そのため,農研機構においても,第 1 期リモート NMR 分光分析供用システム開発の取り組みで挙げられた課題点を解消しつつ,新たなシステムを構築する必要があった.

まず,新たなリモート NMR 分光分析供用システムにおいて,前述した自動前処理装置により調製した試料は,リモート操作が可能な Bruker 社製 800 MHz 溶液 NMR 分光分析装置のオートサンプルチェンジャーにセットが可能なため,自動かつ簡便に多検体の NMR 分光分析が可能である.溶液 NMR 分光分析装置の操作に使用するアプリケーションには一般的に普及している NMR 分光分析及び解析ソフトウェアである Bruker 社製 TopSpin ソフトウェアとサンプルチェンジャーを自動制御する同社製 IconNMR ソフトウェアを導入している.さらに,このリモート NMR 分光分析供用システムをリモート環境からでも安全に操作し,研究資源の流出を防ぐため,3 段階の堅牢な情報セキュリティ及び制御系セキュリティ対策を施した.1 つ目は,農林水産省研究ネットワーク上にファイアーウォールを設け,外部の不正アクセスを監視及び防御している.2 つ目は,農研機構ネットワーク上にファイアーウォールを設け,特定拠点の登録した機器と利用者からのみアクセスを許可し,農研機構の外部だけでなく内部からの不正アクセスを監視及び防御している.3 つ目は,NMR-WS に複数のセキュリティ対策ツールを複合的かつ多層的に組み合わせ,特定の PC からのみアクセスを許可している.

そのため,本システムを利用するにあたっては,最初に利用者登録を行い,農研機構の外部からアクセスするためのアカウントとパスワードを発行する必要がある.また,接続用 PC の設定としては,利用者に発行したクライアント証明書と NMR-WS の前段にあるファイアーウォール装置への接続用ソフトウェアである Fortinet 社製 FortiClient ソフトウェアのインストールが必要である.ファイアーウォール装置への暗号化通信-仮想プライベートネットワーク(SSL-VPN: Secure Sockets Layer-Virtual Private Network)接続は,Fortinet 社製 FortiClient ソフトウェア起動画面に,ユーザー名,パスワード及びクライアント証明書を入力及び選択し,その後に電子メールで発行されるトークンを入力する多段認証により確立する.NMR-WS への接続はセキュアシェル(SSH: Secure Shell)プロトコルで行い,NICE 社製クラウド型仮想デスクトップ(DCV: Desktop Cloud Visualization)ソフトウェアにより仮想デスクトップを立ち上げることで GUI 操作を行うことが可能である(図 4).

接続用 PC がインターネット環境下にあり,前述の設定が完了していれば溶液 NMR 分光分析装置を任意の場所からリモート操作することが可能である.また,Microsoft Teams アプリケーションを用いたオンラインでのコミュニケーションにも対応しており,現地の技術者及び研究者と応対しながら NMR 分光分析を行うことも可能である.NMR-WS の操作画面のセッションを共有することで,複数ユーザーで溶液 NMR 分光分析装置の制御や後述する AI 研究用スーパーコンピュータ「紫峰」上で行うデータ駆動型解析の実行画面を共有することも可能である.また,NMR-WS と AI 研究用スーパーコンピュータ「紫峰」は NAS を経由してデータ連携しているため,NMR 分光分析後は即時に NMR 分光データを AI 研究用スーパーコンピュータ「紫峰」に転送することも可能である.さらに,農研機構統合 DB とも連携しており,NMR 分光分析からデータ駆動型解析,データ管理までをワンストップで行える新たなシステムとなっている.この新たなリモート NMR 分光分析供用システムは 2021 年 6 月より試験的に運用を開始しており,利用者の要望に応じて逐次的にシステムを改修している状況である.

図 4. NMR-WS へのリモート接続の構成

農業及び食品分野の NMR 分光データ駆動型解析へ向けて

AI 研究用スーパーコンピュータ「紫峰」との連携

近年,農業分野においてデータ駆動型研究や AI 等を活用したスマート育種,スマート農業及びスマートフードチェーンの研究が進められている(石塚 2019).そのため,データ駆動型農業研究をさらに加速させると共にデータ連携を図るための農業情報研究基盤の整備が求められている.また,これらに関連した NMR 分光データの解析においても,成分の同定や化学構造解析には多くの時間と労力がかかる.そのため,NMR 分光分析から産生される膨大なデータを解析し,有用な情報を得るためには,大規模な計算基盤と簡便に利用が可能な AI 解析技術の開発が必要であった.

そこで,データ駆動型解析の簡便化を図るため,Web ブラウザ上で GUI 操作しながら NMR 分光データの解析を行えるツールとして,MetaboAnalyst(Chong et al. 2018)の開発が進められている. しかし,一般に広く公開している Web ツールは利用範囲の特性上,多くの計算資源を提供していないため,膨大な計算コストを必要とする AI 解析等には不向きである. そこで農研機構では,2020 年 5 月より AI 解析に特化した 128 基のグラフィックボード(GPU: Graphics Processing Unit)による理論性能 1 ペタフロップス(PFLOPS: petaflops)の計算能力をもつAI研究用スーパーコンピュータ「紫峰」を本格稼働させた(川村ら 2021Kawamura et al. 2022). AI 研究用スーパーコンピュータ「紫峰」と NMR-WS は NAS を経由してデータ連携しており,この連携には 10 ギガビット毎秒(Gbps: Giga bit per second)ストレージ専用ネットワークを配備していることから NMR 分光データへの高いアクセス透過性を持っている. 転送された NMR 分光データの解析は,インターネット環境下にあるクライアント PC から AI 研究用スーパーコンピュータ「紫峰」に SSH 接続や NICE 社製 DCV により仮想デスクトップ化し,ソフトウェアやプログラムを実行することで行える(図 5A).

また,一般的に研究機関等が運用するスーパーコンピュータはバックエンドでタスクを実行し,計算結果を含むファイルを出力する.一方で,AI 研究用スーパーコンピュータ「紫峰」はフロントエンドにおいても計算資源を豊富に持っており,Python 言語や R 言語などで対話的にデータ駆動型解析を行うことも可能である.また,NMR 分光データ解析ソフトウェアとして,Bruker 社製 TopSpin ソフトウェアを導入しており,NMR 分光分析後に NMR-WS から転送された NMR 分光データの即時的な解析を GUI 操作で行うことも可能である.さらに,AI 研究用スーパーコンピュータ「紫峰」上で NMR メタボローム解析を GUI 操作で行えるNMR分光データ解析ツールの開発も行っている. この NMR 分光データ解析ツールは Web ブラウザ上で動作する対話型実行環境 Jupyter Lab で開発しており(Thomas and Cholia 2021),入力ウィジェットを GUI 操作して NMR 分光データの読み込みと数値変換からデータ前処理とデータ駆動型解析を行える仕様となっている.得られたデータ駆動型解析の結果も Web ブラウザ上に出力されるため,入力ウィジェットや描画画面を対話的に GUI 操作して結果を解釈することが可能である.NMR 分光データ解析ツールの機能としては,1 次元 NMR 分光データの読み込みと数値変換,各 NMR 分光データに対応するサンプルのグループ情報と目的変数の読み込み,NMR スペクトルの前処理,多変量解析,機械学習及び成分の自動推定を整備してあり,解析リストから目的の解析項目を選択し,解析フローに沿ってデータ駆動型解析を行うことが可能である(図 5B).

NMR 分光データの読み込みと数値変換では,nmrglue ライブラリ(Helmus and Jaroniec 2013)により Bruker 社製溶液 NMR 分光分析装置から得られた NMR 分光データに含まれる FID データである fid ファイル及び前処理済みデータである pdata ファイルの一括読み込みと数値変換を行うことが可能である. また,複数の NMR スペクトルを含むカンマ区切りのテキストデータ(CSV: Comma Separated Values)ファイルの読み込みにも対応している.解析ツールにおけるこの GUI 操作としては,「NMR データのインポート」セクション内にある入力ウィジェットのプルダウンからインポート方法と NMR 分光分析手法を選択し,インポートボタンを押下後にフォルダ及びファイル選択画面が表示され,NMR 分光データを含むフォルダを選択及び実行すると,選択した NMR 分光分析手法に一致する NMR 分光データが一括で読み込み及び数値変換され,読み込んだデータ数が表示される(図 6A1).また,各 NMR 分光データに対応するサンプルのグループ情報及び機械学習における目的変数を CSV ファイルで読み込むことで,多変量解析や機械学習の入力値や解析結果の図中の色分けに適用することが可能である.解析ツールにおけるこの GUI 操作としては,「グループ情報のインポート」あるいは「目的変数のインポート」セクション内にある入力ウィジェットのプルダウンからインポート方法を選択し,インポートボタンを押下後に CSV ファイル選択画面が表示され,サンプルのグループ情報や目的変数を含む CSV ファイルを選択及び実行すると,CSV ファイル内情報が読み込まれ,読み込んだデータ数が表示される(図 6A2).

NMR スペクトルの前処理では,ゼロフィリング,ラインブロードニング,位相補正,ベースライン補正,キャリブレーション,低磁場及び高磁場領域の除去,ビニング/バケッティング,溶媒ピークの除去,正規化及びピークアライメントといった一般的な技法(Jacob et al. 2017)の使用が可能である.フーリエ変換は FID データのみに自動で適用され,NMR スペクトルに変換される.また,ゼロフィリングも FID データのみに適用が可能であり,FID データの後部に 0 の値を指定したポイント数分追加し,フーリエ変換後の各 NMR スペクトルのデータポイント数の増加とデジタル分解能を向上させる.ラインブロードニングもFIDデータのみに適用が可能であり,任意の周波数でフーリエ変換後の各 NMRスペクトルの平滑化を行う. 位相補正では,最大ピーク周辺を最小化する方法あるいはエントロピー最小化 に基づく自動位相補正(ACME: Automated phase Correction based on Minimization of Entropy)アルゴリズム(Chen et al. 2002)により,各 NMR スペクトルを位相の歪みが無いように補正する.ベースライン補正では,分類方法(Wang et al. 2013)により各 NMR スペクトルのベースラインを 0 点補正する.キャリブレーションでは,各 NMR スペクトルの基準物質のピークの化学シフトを 0 点補正する.低磁場及び高磁場領域の除去では,NMR スペクトル上のピークが出ない不要な低磁場及び高磁場領域の化学シフトの範囲を選択して強度値を 0 に置換する.ビニング/バケッティングでは,各 NMR スペクトルを指定した一定の化学シフトの間隔で分割し,その積分値を得ることで各 NMR スペクトルのポイント数を削減する.溶媒ピークの除去では,溶液NMR分光分析に使用する重溶媒に含まれる重水素化されていない微量の溶媒ピークを,出現する化学シフト範囲を選択して強度値を 0 に置換する.正規化では,基準物質の強度値を一定に揃える方法,NMR スペクトルの積分値を一定に揃える算術平均法,あるいは確率的指数正規化(PQN: Probabilistic Quotient Normalization)により NMR スペクトルの強度値を揃える方法(Dieterle et al. 2006)が選択可能である.ピークアライメントでは,icoshift アルゴリズム(Savorani et al. 2010)により,各 NMR スペクトル上で僅かに化学シフトの位置がずれている成分のピークを同じ化学シフトに整列させる.これらの前処理は読み込んだ全ての NMR スペクトルに自動で適用されるため,従来的に多くの時間や手間を要していた NMR スペクトル前処理が簡便となる.解析ツールにおけるこの GUI 操作としては,「NMR データの前処理」セクション内にある入力ウィジェットの各前処理技法の使用の有無の選択とプロセスパラメータを入力し,プロセスボタンを押下すると,読み込んだ全ての NMR スペクトルに前処理が自動で適用され,前処理したデータ数が表示される.また,前処理した各 NMR スペクトルは Web ブラウザ上で確認することが可能である.解析ツールにおけるこの GUI 操作としては,「スペクトルの確認」セクション内にある描画ボタンを押下後,入力ウィジェットのプルダウンからサンプルを選択すると,Web ブラウザ上に NMR スペクトルが表示される.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6B).

多変量解析では,階層クラスター解析(HCA: Hierarchical Cluster Analysis),非階層クラスター解析(NHCA: Non-HCA),主成分分析(PCA: Principal Component Analysis),判別分析(DA: Discriminant Analysis),相関解析を行うことが可能である.HCA では,クラスター間の距離を定義するウォード法などの距離関数により,最も類似している NMR スペクトルの組み合わせから順番にまとめていき,最終的に一つのクラスターにまとめる.これにより可視化された樹形図からサンプルの類似性や独自性の評価,サンプルのグループ化が可能である(Kikuchi et al. 2018).解析ツールにおけるこの GUI 操作としては,「階層クラスター解析」セクション内にある入力ウィジェットのプルダウンからアルゴリズムと距離の定義を選択し,計算ボタンを押下すると階層的な樹形図が表示される.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6C1).NHCA では,PyClustering ライブラリ(Novikov 2019)により,k-means,x-means 及び g-means のクラスタリング手法を実行することが可能である.k-means では,NMR スペクトルを任意の k 個にクラスターに分類する. x-means では,k-means の逐次繰り返しとベイズ情報量規準による分割停止基準,g-means では,k-means の逐次繰り返しとアンダーソン・ダーリング検定による分割停止基準を用いて自動で最適なクラスター数を決定し,NMR スペクトルを分類する.これにより,サンプルの分類が不明な場合などでも自動でサンプルのグループ数の決定とクラスタリングが行え,サンプルの類似性を評価することが可能である.解析ツールにおけるこの GUI 操作としては,「非階層クラスター解析」セクション内にある入力ウィジェットのプルダウンからアルゴリズムを選択し,計算ボタンを押下すると,分類されたサンプルがリスト表示される(図 6C2).PCA では,多くのデータポイント数のある NMR スペクトルを次元圧縮のアルゴリズムにより少ない変数に要約する. そのため,NMR スペクトル間の特徴や傾向は主成分得点から把握が可能であり,主成分負荷量からはそれらに寄与する NMR スペクトルのピークの発見に繋げることが可能である(Kikuchi et al. 2018).解析ツールにおけるこの GUI 操作としては,「主成分分析」セクション内にある入力ウィジェットの計算ボタンを押下し,描画画面設定用プルダウン,主成分得点の散布図及び主成分負荷量の棒グラフを表示させる.入力ウィジェットのプルダウンからは,サンプルのグループ情報に基づく散布図の色分けと主成分第 1 軸及び第 2 軸の変更が可能である.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6C3).これらの目的変数を定めないノンターゲット分析は,入力したNMRスペクトルに基づくサンプル間の特徴を俯瞰的に評価する上で有用である.

DA では,部分最小二乗 (PLS: Partial Least Squares)モデルを使った PLS-DA 及び直行部分最小二乗(OPLS: Orthogonal Partial Least Squares)モデルを使った OPLS-DA の 2 手法を実装しており,各NMRスペクトルに対応するサンプルに割り当てたグループ情報における違いを最大化させるため,このサンプルのグループの違いを判別成分得点から評価することが可能であり,判別成分負荷量から寄与する NMR スペクトルのピークの発見に繋げることが可能である(Kikuchi et al. 2018).解析ツールにおけるこの GUI 操作としては,「判別分析」セクション内にある入力ウィジェットのプルダウンからサンプルのグループ情報と計算手法を選択後,計算ボタンを押下し,描画画面設定用プルダウン,判別成分得点の散布図及び判別成分負荷量の棒グラフを表示させる.入力ウィジェットのプルダウンからは,判別成分第 1 軸及び第 2 軸の変更が可能である.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6C4).相関解析では,NMR スペクトルにおける各ポイント同士のピアソン,スピアマン,あるいはケンドールの相関係数を算出し,成分ピーク同士の相関性の強さや弱さをヒートマップから評価することが可能である(Kikuchi et al. 2018).解析ツールにおけるこの GUI 操作としては,「相関ヒートマップ」セクション内にある入力ウィジェットのプルダウンから計算手法を選択後,計算ボタンを押下し,描画画面設定用の入力ウィジェットと相関ヒートマップを表示させる.入力ウィジェットからは,相関係数の表示範囲と NMR スペクトルの強度の閾値を入力可能である.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6C5).NMR スペクトルのポイント数が多い場合,Web ブラウザ上におけるヒートマップの描画に時間がかかってしまうため,Datashader ライブラリを用いて描画の高速化を図っている.

機械学習では,scikit-learn ライブラリを用いたランダムフォレスト(RF: Random Forest)とサポートベクターマシン(SVM: Support Vector Machine)による分類及び回帰の解析を行うことが可能である(Hackeling 2017). 機械学習におけるハイパーパラメータのチューニングは K-分割交差検証とベイズ最適化を組み合わせて行い,自動で最適なハイパーパラメータを決定することが可能である.特徴量重要度は,RF にはジニ係数,SVM にはパーミュテーション法により算出している.機械学習は計算コストが大きいため,計算タスクを並列化することで計算を高速化している.仮説に基づき作成したサンプルのグループ情報や目的変数の妥当性が実測値と予測値の混同行列や 2 変量散布図及び予測精度から評価することが可能であり,特徴量重要度から分類や回帰予測モデルに寄与する NMR スペクトルのピークの発見に繋げることが可能である. 解析ツールにおけるこの GUI 操作としては,「ランダムフォレスト」あるいは「サポートベクターマシン」セクション内にある入力ウィジェットのプルダウンからタスクを選択後,計算ボタンを押下し,分類では交差検証時の検証データの実測値と予測値の 2 変量に対する混同行列と正答率,回帰では交差検証時の検証データの実測値と予測値の 2 変量に対する散布図と二乗平均平方根誤差(RMSE: Root Mean Squared Error)を表示させる.また,ハイパーパラメータのチューニング結果と特徴量重要度の棒グラフも表示される.また,描画メニューや画面操作で描画の表示変更や図の保存等が可能である(図 6D).

成分の自動推定には,複雑スペクトルの自動統計的同定(ASICS: Automatic Statistical Identification in Complex Spectra)ライブラリを実装している.ASICS による混合物の NMR スペクトルからの成分推定は,線形モデルを用いた純成分の NMR スペクトルのライブラリとの比較により実行され,入力した NMR スペクトルに近い純成分の NMR スペクトルを同定の候補として挙げられる(Tardivel et al. 2017).これにより,従来的に多くの時間や手間を要していた混合物のNMRスペクトルにおける成分の同定が簡便となる.解析ツールにおけるこの GUI 操作としては,「ASICS」セクション内にある入力ウィジェットの計算ボタンを押下し,サンプル選択プルダウンと NMR スペクトルを表示させる.入力ウィジェットのプルダウンから表示させるサンプルの NMR スペクトルを選択することが可能であり,描画画面横の凡例から重ね合わせる推定純成分の NMR スペクトルを選択することが可能である.また,描画メニューや画面操作で描画の表示変更や図の保存等も可能である(図 6E).ASICS に BMRB(Romero et al. 2020)などの NMR スペクトルのデータベースを連携あるいは構築し,使用する純成分ライブラリを重溶媒の種類や磁場強度ごとに拡充していくことで,推定精度を向上させることも可能である.

この NMR 分光データ解析ツールを用いることで,データ駆動型解析の飛躍的な効率化と,それによる機能性食品や品種改良,創農薬などの研究の促進や農業及び食品分野のイノベーション創出に繋がることが期待される.また,データ駆動型農業研究をさらに加速させるべく,AI 解析項目の追加や機能の改善を行っていく予定である.この AI 研究用スーパーコンピュータ「紫峰」は後述する農研機構統合 DB とデータ連携しており,NMR 分光データやNMR分光データ解析ツールにより得られた解析結果を農研機構統合 DB に転送し,将来にわたって長期的に登録データの整理,維持及び管理を行うことが可能である.

図 5. AI 研究用スーパーコンピュータ「紫峰」上で動作する NMR 分光データ解析ツール

NMR-WS 上の NMR 分光データは NAS を経由して AI 研究用スーパーコンピュータ「紫峰」に転送される. クライアント PC から AI 研究用スーパーコンピュータ「紫峰」に SSH 接続や NICE 社製 DCV により仮想デスクトップ化し,ソフトウェアやプログラムを実行することで転送された NMR 分光データの解析を行う(A). 開発した R 分光データ解析ツールでは,解析リストにある NMR 分光データの読み込みと数値変換,NMR スペクトルの前処理,多変量解析,機械学習及び成分の自動推定を解析フローに沿って Web ブラウザから実行することが可能である(B).

図 6. NMR分光データ解析ツールにおけるGUIでの対話的操作の概略

農研機構統合データベースとの連携

従来,研究データは各研究センターや部門,個人,あるいはプロジェクトのチームで所有しており,将来にわたって長期的に研究データを整理,維持及び管理していくことは困難である.また,多様かつ大量の研究データを利活用し,データ駆動型農業を促進させるため,異分野間のデータであっても一元管理することが可能な大規模データベースの構築が必要であった.

そこで農研機構では,長年にわたり研究活動で蓄積されてきた農畜産物のゲノムや成分などの研究データを将来にわたって長期的に統合的に整理,維持及び管理するため,データ容量 3 ペタバイト(PB: Peta Byte)の大規模データベースである農研機構統合 DB を構築してきた(川村ら 2021Kawamura et al. 2022).本システムはメモリーテック社が開発している「カレイダ アーク」ファイル管理システムを基盤として農研機構用にカスタマイズしているシステムである.本システムで管理する全ての研究データにタイトル,作成者,日付,ライセンス情報及び内容などのデータの属性を説明するための基本メタデータである NARO commons を付与することで,研究データの種類ごとの検索が可能となり,また,研究データの見える化とカタログ化を実現している.

近年,nmrML や COSMOS コンソーシアムにおいては,メタボロミクス分野における標準化を目指しており,メタボロミクスのデータとメタデータの堅牢なデータインフラストラクチャと交換標準を開発していると共に,MetaboLights(Haug et al. 2020)といった代謝物情報のレポジトリと連携したシステムを開発している(Salek et al. 2015Schober et al. 2018).SpecDB では,機械学習の利用を目指したサンプル情報と FID データを記述するメタデータ項目を格納及び整理するためのリレーショナルスキーマを提示している(Fraga et al. 2022).また,MeRy-B では,植物の NMR スペクトルと検出された代謝物群を,実験情報,分析情報,スペクトル情報及び化合物情報を含むメタデータと共にカタログ化したデータベースの開発と公開を行っている(Ferry-Dumazet et al. 2011).

そこで,農研機構統合 DB 上では,NARO commons に加えて NMR 分光データ専用のカスタムメタデータを NMR 分光データに付与し,整理,維持及び管理することとした.そのため,成分抽出前の試料の収集,NMR 分光分析用試料の調製,NMR 分光分析及びデータ駆動型解析といった NMR 分光分析によるメタボロミクス分野の実験の流れ(Kim et al. 2010)に対応したサンプル情報,機器分析試料情報,分析機器情報及び計測情報を含むカスタムメタデータを設計した.また,サンプル情報は,動物,植物,微生物,調理・加工食品,その他加工品,化合物及びその他と分類し,それぞれのサンプルの種類に対応したカスタムメタデータを設計した.「サンプル情報 - 動物(排泄物,腸内フローラなど含む)」のカスタムメタデータは表 1 に示すように,動物の名称に関する情報,性別と年齢に関する情報,サンプル採取に関する情報及び生育に関する情報を入力することが可能である.「サンプル情報 - 植物(根圏,土壌を含む)」のカスタムメタデータは表 2 に示すように,植物の名称に関する情報,生長に関する情報,サンプル採取に関する情報及び生育に関する情報を入力することが可能である.「サンプル情報 - 微生物」のカスタムメタデータは表 3 に示すように,微生物の分類と名称及び培養に使用した培地の名称を入力することが可能である.これらのカスタムメタデータは,生物種を分類することでサンプルが生物の場合に簡便な利用が可能なように設計した. また,農業及び食品分野の研究では,生物や環境由来の食品,加工品,肥料及び飼料といったサンプルも扱うため,これに対応する「サンプル情報 - 調理・加工食品」のカスタムメタデータ(表 4)と「サンプル情報 - その他加工品」のカスタムメタデータ(表 5)も設計した.これらのカスタムメタデータでは,種類や名称,製造に関する情報及び原料に関する情報を入力することが可能である.また,精製された化合物をサンプルとして扱う場合は,表 6 に示す「サンプル情報 - 化合物」のカスタムメタデータで化合物名,ケミカル・アブストラクツ・サービス(CAS: Chemical Abstracts Service)番号,純度及び製造元を入力することが可能である.これらのカスタムメタデータは,非生物種を分類することでサンプルが非生物の場合にも簡便な利用が可能なように設計した.また,上記のカスタムメタデータに一致しないサンプルに対応するため,「サンプル情報 - その他」のカスタムメタデータも設計した(表 7).「機器分析試料情報」のカスタムメタデータは表 8 に示すように,NMR 分光分析用試料の調製日,成分抽出用重溶媒の種類と液量,テトラメチルシラン(TMS: Tetramethylsilane)などの基準物質の名称,水素イオン濃度(pH: Potential Hydrogen)調節のための緩衝液の有無,溶液試料の pH,溶質の量及び溶液の終濃度といった NMR 分光分析用試料作成に関する情報を入力することが可能である.「分析機器情報」のカスタムメタデータは表 9 に示すように,農研機構が保有する溶液 NMR 分光分析装置の名称と設置場所情報を入力することが可能である.「計測情報」のカスタムメタデータは表 10 に示すように,NMR スペクトルの次元と核種,計測手法名,計測温度,溶液 NMR 分光分析装置に装着しているプローブ名,NMR 分光データの取得開始時間,取得終了時間及び操作方法を入力することが可能である.それぞれのカスタムメタデータには入力必須項目を設けており,将来的な利活用を可能とするために,最低限の情報を入力する必要がある.また,表記揺れの問題を防ぐと共に入力の簡便化を図るため,入力情報が定まっているメタ項目に関しては,プルダウンから入力値を選択することが可能な設計となっている.これらのカスタムメタデータには NMR 分光分析によるメタボロミクス分野の情報を網羅的に入力することが可能となるように設計しており,今後,利用者の要望に応じて改善を図っていく予定である.

農研機構統合 DB に登録した NMR 分光データは,農研機構統合 DB 上の当該フォルダのメタデータ編集画面において,サンプルの種類に応じたサンプル情報,機器分析試料情報,分析機器情報及び計測情報のメタ項目を入力し,登録することでカスタムメタデータを付与することが可能である.また,農研機構統合 DB からダウンロードすることが可能なメタデータ入力フォームである Microsoft Excel ファイルのカスタムメタ項目にメタ情報を入力後,NMR 分光データのフォルダと一緒に農研機構統合 DB へアップロードすることでもカスタムメタデータ付きの NMR 分光データの登録が可能である.これにより,NMR 分光データに付与したカスタムメタデータから,誰が,何を,いつ,どこで,どのようにサンプル採取,試料調製及び NMR 分光分析を行ったかという情報を NMR 分光データから得ることが可能である.また,長年にわたって農研機構で収集されてきた NMR 分光データを農研機構統合 DB に集約することでデータ管理の一元化が図れ,将来にわたって長期的に整理,維持及び管理することが可能となり,将来的な利活用も容易となった.

さらに,農研機構統合 DB と AI 研究用スーパーコンピュータ「紫峰」は NAS を経由したデータのインポートとエクスポートが可能であるため,NMR-WS から AI 研究用スーパーコンピュータ「紫峰」に転送し た NMR 分光データは,農研機構統合 DB にも登録することが可能である(図 7).また,AI 研究用スーパーコンピュータ「紫峰」上の NMR 分光データ解析ツールで得られたデータ駆動型解析の結果も農研機構統合 DB に登録することが可能であり,使用したNMR分光データの登録場所,NMR スペクトルの前処理やデータ駆動型解析の技法,解析手順等のメタデータを付与し,管理していくことで,関連する研究がさらに高度化及び効率化される.農研機構統合 DB 上にある NMR 分光データと異種データを AI 研究用スーパーコンピュータ「紫峰」に転送し,組み合わせて AI 解析することで,デジタル食デザイン,作物デザイン,創農薬など新たな研究成果へと繋げることも可能である.また,農業データ連携基盤 WAGRI とも連携し,農研機構統合 DB 内のデータを,WAGRI を経由して安全に外部提供するシステムも設計及び開発している(塩見 2020).

この農研機構統合 DB は 2020 年 5 月に本格稼働を開始し,利便性をさらに向上させるため,様々な機能の開発を継続して行っている.現在,NMR 分光データや食品データ,植物ゲノムデータなどの研究データの集約を進めており,今後,農研機構統合 DB を通して異分野の研究者間でのデータ連携が活性化され,情報基盤連携している AI 研究用スーパーコンピュータ「紫峰」を併せて活用することで,分野横断的研究などが促進されると期待される.

図7. 農研機構統合 DB と AI 研究用スーパーコンピュータ「紫峰」の NMR 分光データ連携

おわりに

本稿では,農研機構で構築している NMR 分光分析用試料の自動前処理,連続自動実行が可能なリモート NMR 分光分析,データ駆動型解析及び NMR 分光データの一元管理をワンストップで実施可能な NMR 分光データ解析パイプラインを紹介した.NMR 分光分析用試料の自動前処理装置を導入することで,NMR 分光分析に供試する試料を大量,高速及び均質かつ均一に自動調製することが可能となった.リモート NMR 分光分析では,オートサンプルチェンジャーを装備した溶液 NMR 分光分析装置をリモート環境から安全かつ簡便に操作が可能であり,大量の試料を自動で NMR 分光分析することが可能となった.NMR-WS は NAS を経由して AI 研究用スーパーコンピュータ「紫峰」とデータを共有しており,AI 研究用スーパーコンピュータ「紫峰」上の NMR 分光データ解析ツールを使用することで,転送された NMR 分光データの迅速な一括読み込みと数値変換,NMR スペクトルの前処理,多変量解析,機械学習及び成分推定を実行することが可能となった.AI 研究用スーパーコンピュータ「紫峰」は NAS を経由して農研機構統合 DB とデータ連携しており,カスタムメタデータを付与した NMR 分光データを農研機構統合 DB に転送し,集約することでデータ管理の一元化が図れ,将来にわたって長期的に整理,維持及び管理することが可能となる.

本パイプラインを利用することで,NMR 分光分析やスーパーコンピュータを用いたデータ駆動型解析を行う研究がより身近なものとなり,煩雑であった機器分析データやデータ駆動型解析の結果の一元管理が可能である.また,民間企業等の産業界と農業及び食品産業分野の研究者のさらなる連携強化が促進されると期待される.将来的に,リモート分析供用システムを溶液 NMR 分光分析装置以外の分析機器へも展開することで,異なる性質の機器分析データの解析パイプラインの構築も可能となる.また,NMR 分光分析で取得した成分の化学構造や機能に関するデータと,農研機構で収集している膨大な食品の機器分析データ,植物ゲノムデータ,遺伝資源データ及び作物データといった複数の異種データを組み合わせ,AI 研究用スーパーコンピュータ「紫峰」で AI 解析することで,デジタル食デザイン,デジタル作物デザイン,創農薬及び農業生態系のデジタル化(Ichihashi et al. 2020)などの研究が促進されると期待される.この様に,前処理装置-高度分析機器-スーパーコンピュータ-大容量データベースを連携させた独自のシステムは,他に類を見ない強力な農業研究基盤となりえる.一方で,これらの機器間の連携は,少なからず人の手の介入が必要となり,試料調製から機器分析,データ駆動型解析及びデータ管理までを完全に自動実行することは困難であるのが現状である.この課題を解決するためには,機器間の装置及びシステムの連携技術向上を図る必要がある.今後,さらにデータ駆動型農業研究は加速していくと予想され,AI 研究用スーパーコンピュータ「紫峰」上で動作するデータ解析ツールの AI 解析を含めた機能や農研機構統合 DB の機能の追加と改善を継続して行っていく予定である.

謝辞

本稿で紹介した第 1 期リモート NMR 分光分析供用システムの開発は,農林水産研究情報デジタルコミュニティの構築事業の資金援助を受けて実施した.また,第 2 期リモート NMR 分光分析供用システムの開発は,内閣府官民研究開発投資拡大プログラム(PRISM: Public/Private R&D Investment Strategic Expansion PrograM)の資金援助を受けて実施した.NMR 分光データ解析パイプラインの開発は農研機構内の横断的プロジェクトである NARO プロ 6-7 の資金援助を受けて実施した.NMR-WS 及び AI 研究用スーパーコンピュータ「紫峰」の導入は,富士通社の協力により実現した.また,AI 研究用スーパーコンピュータ「紫峰」と農研機構統合 DB のデータのインポート及びエクスポートや農研機構統合 DB のカスタムメタデータ設定等の機能は,メモリーテック社の協力により開発した.本稿で示す NMR 分光データの解析は農研機構の AI 研究用スーパーコンピュータ「紫峰」を利用して実施した.農研機構統合 DB への NMR 分光データの登録,管理方法及び NMR 分光データ解析ツールの構築に関して助言していただいた農業情報研究センター データ研究推進室員の方々に謝意を表する.

利益相反

すべての著者は開示すべき利益相反はない.

引用文献
 
feedback
Top