Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
速報
FMOプログラムABINIT-MPの開発状況と機械学習との連携
望月 祐志坂倉 耕太秋永 宜伸加藤 幸一郎渡邊 啓正沖山 佳生中野 達也古明地 勇人奥沢 明福澤 薫田中 成典
著者情報
ジャーナル フリー HTML

2017 年 16 巻 5 号 p. 119-122

詳細
Abstract

We have been developing the ABINIT-MP program for the fragment molecular orbital (FMO) method. The list of inter-fragment interaction energies (IFIEs) is available from FMO calculations and is useful in analyzing the nature of interactions in a given target system. In this Letter, we summarize the current status of ABINIT-MP and also the machine-learning assisted analyses of IFIE data.

1 序論

巨大分子の"分割統合"系の種々の量子化学計算法 [1]の中で,フラグメント分子軌道(FMO)法 [2,3,4]は方法論的な発展の多様性と応用事例の豊かさの点で最も普及していると言える.主なFMOプログラムとしては,米日連携で推進されているGAMES-US [1,3]. が機能的には最も充実しているが,著者らが開発しているABINIT-MP [2,4,5,6]や長崎大の石川先生によるPAICS [7]も一般の利用者が居られる.

FMO計算からは,フラグメント間の相互作用エネルギー(GAMESS-USではPIE,ABNIT-MPとPAICSではIFIEと呼ばれる)等の対象系の解析に好適な情報が得られることが,生体分子系を中心に多数の応用事例 [3,4]が報告されてきている理由にもなっている.これまでのところ,タンパク質の相互作用解析はPDBからのダウンロードデータによる単一構造に基づくものがほとんどだが,水中での構造揺らぎを考慮した統計的な検討 [7]が今後は重要となってくると考えられる.実際のプロトコルとしては,古典力場による分子動力学(MD)シミュレーションによって得られる多数の構造サンプルに対し,一連のFMO計算を行うことになる.単一構造の場合と違い,こうして生成されるIFIEのデータ量は「人が把握する」にはあまりにも膨大(いわゆるビッグデータ)となり得る.昨今のトレンドもあり,ここに機械学習を導入して「人間が把握可能な量に簡約する」ことは自明な流れとも言えるであろう.

この速報では,ABINIT-MPプログラムの最近の開発•整備の状況を前半に概説し,後半ではマイクロソフト(MS)のAzure [8]とGoogleの深層学習ツールTensorFlow [9]を使ったIFIEデータの機械学習による解析事例 [10]をご紹介したい.

2 ABINIT-MPの状況

ABINIT-MPは,旧公開用Ver.7までが東大生産研のサイト [5]でIntel Xeon (IA64)用バイナリが(未だ)ダウンロード出来るようになっている.ただ,2015年度から,Openシリーズとして文科省ポスト「京」プロジェクト(FS2020)の重点課題6の活動の中に開発•整備が移行している.現在利用可能な版はOpen Ver.1 Rev.5 (2016年12月)で,「計算工学ナビ」のサイト [6]を参考に,取り纏め責任者の望月にコンタクトをしていただき,個別対応にてご提供している(形態はバイナリのみ,ソース込みの2通りある).HPCI関係では,理研AICSの「京」,東工大のTSUBAME,東大•筑波大JCAHPCのOakForest-PACS (以下OFPと略記),それに海洋機構CEISTの地球シミュレータ(ES3)にライブラリとして提供済みとなっている.

Open Ver.1 Rev.5は,東大生産研系の旧Ver.7に比してメモリ関係を整理して動作の安定化が図られている.また,ヨウ素や白金などの重元素用に相対論効果を含むモデル内殻ポテンシャル(MCP) [11]が使えるようになっている.

OFPはIntel Xeon Phiの第2世代であるKnights Landing (KNL)を用いたスーパーコンピュータである.搭載KNLの物理コアの数は68であるが,ハイパースレッディング(HT)機構によって4倍までスレッド数を増やせる.ABINIT-MPによるFMO-MP2計算は,HTを活かして少ないノード数で効率良く実行出来る.Table 1に,HIV-1 proteaseのFMO-MP2/6-31G*エネルギー計算のOFP上でのタイミングを示す.並列化は混成型で,フラグメント内処理をOpenMPのスレッド単位(#Thr.)で,フラグメントのタスクリストをMPI単位(#MPI)で制御しているが,総スレッド数(Tot. #Thr.)の増加に対する加速は良好である.

Table 1. Timing data at OFP (HIV-1 protease).
#Nodes#MPI#Thr.Tot. #Thr.Time (m)
12641281922.8
1464256935.7
2264256967.2
2464512479.0
44641024244.6
4164256562.0
4168512293.7
416161024168.9
48321024192.0
816162048107.4
88322048100.6

2017年度末にリリース予定のOpen Ver.1 Rev.10では,相互作用エネルギーの成分解析(PIEDA) [12]が導入され,環境静電ポテンシャルの点電荷近似でMulliken電荷だけでなくRESP電荷も使えるようになる.その後,フラグメント分割ポイント処理の多様化,有効内殻ポテンシャル(ECP),B3LYPなどの機能が追加されていく予定である.

3 機械学習の利用

これまでにIFIEデータの解析にAzure [8]の機械学習を適用したタンパク質は,Chignolin (10残基),TrpCage (20残基),Ubiqutin (76残基),Calmodulin (148残基)である.計算の基本的なワークフローは,(1) PDB構造をベースに水素付加や対イオンと水を追加して周期条件下で古典MDを行う,(2) 適当なインターバル(100ps等)で液滴モデルとして100個(程度)切り出す,(3) MP2/6-31G*レベルでFMO計算を実行する,(4) 一連のIFIEデータをアミノ酸残基間の距離や残基の電荷などの記述子の候補と共に取り出す,(5) 各残基対のIFIEを目的関数としてAzure [8]によるニューラルネットワーク回帰分析にかける,(6) 解析結果を回収して整理する,となっている.こうした統計的な解析によって,各々のアミノ残基対のIFIEを特徴付けている記述子が決まるので,相互作用の本質を整理するのに有益である [10].100個のサンプル数の場合,現在の設定では75個のセットで学習し,残り25セットで精度を評価するようになっている.Figure 1はTrpCageの荷電性アミノ酸残基の組み合わせとなるArg16-Lys8間のIFIEの評価25セットの結果で,好ましい相関関係が見られる(単位はkcal/molで,横軸が予測値,縦軸が実際のIFIE値).荷電性残基間のIFIEの場合,記述子の中では電荷重心間の距離が主導的であることが分かった.ただし,非荷電-非荷電,荷電-非荷電の残基対の場合には,未だ改良の余地があり,記述子候補の追加などを今後進めていく.

Figure 1.

 IFIE prediction (TrpCage).

深層学習ツールのTensorFlow [9]の応用では,IFIE-map [4]の自動解釈を試みた.IFIE-mapでは,タンパク質のα-へリックス,β-シートの構造は各々特徴的なパターンとして可視化される.Figure 2は,両構造が含まれているUbiquitinのIFIE-mapの例で,赤いセルの上三角が安定化,青いセルの下三角が不安定化の領域で,添えられたバーは連続二面角の構造から別途判定されたα-ヘリックス(赤)とβ-シート(緑)を示している.TensorFlowへの入力では,画像処理によってこのバーは削除し,行列イメージのところのみとする.実際のテストでは,18種類のタンパク質をPDBからダウンロードし,古典MDを行ってサンプル構造を50個程度集め,FMO-MP2/6-31Gレベルで計算を行って,IFIE-mapを調製した.また,参照データとして非タンパク質も3種類を用意し,IFIE-mapの総数としては千枚を超える数を揃えた.TensorFlowの隠れ層の設定としては,2層(Figure 3に図示)と3層の両方を試みた.学習が終わった後で,18種のタンパク質のIFIE-mapを判定させたところ,画像読み込み時の解像度が低いとα-ヘリックスでは2層の方が確度が高い場合があるが,解像度を上げると2層,3層共に確度は1に近づく(β-シートはα-ヘリックスよりも判定が容易).こうしたことから,解像度と隠れ層の数を上手く設定する限り,TensorFlowによるIFIE-mapの識別は上手く機能すると考えている [13].

Figure 2.

 IFIE-map (Ubiquitin).

Figure 3.

 Layer structure of TensorFlow.

4 おわりに

ここ数年で,計算化学を含む数値シミュレーションと機械学習/人工知能等のデータ科学との「融合」が進んでいくであろう.その中では,結果データの自動解析•解釈だけでなく,「実計算をしないで(桁違いに高速に)定量的に予測する」技術―例えば,Quantum Machineに出ているような試み [14]―も重要になっていきそうである.創薬や分子設計などに関わる応用計算のあり方も,それに応じて変容するかもしれない.いずれにせよ,計算化学のコミュニティと情報科学•統計数理系のコミュニティとの連携が一層求められていくと思われる.こうした流れの中で,ABINIT-MPを軸とするFMO計算の進め方を柔軟に変えていく必要もありそうである.

Acknowledgment

本研究開発は,文科省ポスト「京」プロジェクト(FS2020)重点課題6,並びに科研費(16H04635)からの支援を受けている.

参考文献
 
© 2018 日本コンピュータ化学会
feedback
Top