2020 年 19 巻 4 号 p. A21-A24
In recent years, there has been progress in the development of machine learning and deep learning technologies in various fields, and a number of software packages have been released that can be implemented. Our research group has attempted to establish analysis methods using machine learning for various scientific data. In this paper, we will report on further developments such as prediction of lipophilicity of molecules, analysis of psalms data using natural language processing, and similarity calculation system of spectrum data.
In recent years, there has been progress in the development of machine learning and deep learning technologies in various fields, and a number of software packages have been released that can be implemented. Our research group has attempted to establish analysis methods using machine learning for various scientific data. In this paper, we will report on further developments such as prediction of lipophilicity of molecules, analysis of psalms data using natural language processing, and similarity calculation system of spectrum data.
近年,様々な分野にて機械学習,深層学習の技術整備が進み,ユーザーが比較的簡単に導入できるソフトウェアが数多く公開されている [1].当研究グループにおいてもこれまで,種々の科学データに対し機械学習を用いた解析法の確立を試み,分子物性値の回帰分析に関する学習コンテンツの整備や,論文の自然言語処理による分類システムの開発,二次元翼の数値流体力学データの解析等について本誌で報告してきた. [2,3,4].現在,これらの成果を元にして新たな知見を得るために,広義の科学データとして扱える異分野への水平展開を試みるとともに,一連のシステムの改良を行っている.本論文では,分子の親油性予測や,本学文学部と連携した聖書詩編データの自然言語処理を用いた解析への展開,更にスペクトルデータの類似度判定についてそれぞれ報告する.
化学向け深層学習の代表的なライブラリの一つにDeepChem [5]がある.オープンソースかつ多機能で非常に有用なツールであるものの,専門的な知識やプログラミングの経験・スキルがある程度無いと,導入教育や自発的学習が難しいのが現状であった.そのため,プログラミング教育用の言語,ソフトウェアであるScratch [6]から呼び出すことで,PC上で敷居の低い形で実行できる溶解度予測コンテンツをこれまでに作成した [2].だが,こうした物性予測はSMILESをはじめとした圧縮情報から生成された大量の分子記述子を用いることが一般的であり,実用に耐えうる大規模なデータ処理にはサーバ上での構築,運用が必要となる.その端緒として,今回は親油性予測を対象とし,サーバ上で本格的な計算を行う用途でのシステム整備を行った.DeepChem内で使用されているChEMBLデータベースの4200化合物からなる親油性データセットを学習させ,任意の化合物の親油性を予測できる形でプログラムを構築した.入力したいpdbファイルを用意,もしくはSMILESを入力することで任意の物質の親油性の予測を行うことが可能となっている.実行の様子の一例をFigure 1に示すが,読み込ませたい分子構造を選択することで,分子構造の描画と共に,SMILESへ変換され,親油性の予測値が算出される.学習にはグラフ畳み込みの機能を使用している.本研究で使用したデータセットの未学習データに関する決定係数は0.66で,SMILESから得られる情報だけでは高い予測精度は得られなかった.実際の予測において,目的に応じて適切な情報をデータセットに追加すべきであることが見受けられる.
Lipophilicity prediction system using deepchem
研究活動において,科学技術論文から適切に情報を取得することは,研究の効率化の上で近年特に大きな意味を持っており,自然言語処理による分類システムの開発が期待されている.これまでに我々も,物理化学の論文を対象にした分類システムを開発した [3]が,明確なクラス付けが難しく,系統的な精度評価には至らなかった.そこで今回,人の手で古くから分類,解析がなされている聖書詩編の解析に適用することで,新たな知見を得ることを試みた.
聖書における「詩編」は,多様な成立年代及び背景を有する計150編の詩の集成として形成されており,詩編に収録されている詩を類似点に基づき分類することで,各類型の作品に共通する背景の考察が古くから行われている [7].論文分類のために構築したシステム [3]を発展させ,既存の解釈を教師データに,自然言語処理による詩編の分類を行った.
詩編は大きく分けて「賛美」「嘆き」「その他」の三種に分類できるが,「賛美」「嘆き」の二種類を学習させた際,三種すべての文章を学習させた際の,ある詩編の予測結果をTable 1に示した.予測結果はソフトマックス関数により出力された各クラスに属する確率を示している.二種類のみ学習させた場合をTable1 (a)に示したが,「賛美」,「嘆き」の詩編それぞれを100%近い値で認識していることがわかる.また,学習させていない「その他」詩編ではどちらにも値が大きく偏ることない結果となり,「機械」がこれらの詩をどちらかに属する詩ではないことを認識しているといえる.更にTable 1 (b)に示すように,3種全てを学習させた場合には,「その他」詩編も85%程度の確率で認識することができた.更に詳細な解析として,Word2vecから文章のベクトルを取得し,詩編の1文ごとの類似度を比較することで,文章内での構造変化を分析する解析も行ったところ,定義されているブロックの区切り目に近い部分で,類似度が減少する結果となった.
このように,明確に分類がされているデータセットがある場合,ある種の文脈の認識も含め,高精度での分類が可能であることがわかった.これらの情報を元に,現在は特定の分野に絞った化学論文を対象として,適切に特徴を捉えられるような分類システムの検討を進めている.
化学物質からは多くのスペクトルデータが得られるが,機械学習の対象としては前述のデータ群と同様に情報が圧縮された有効なターゲットであり,機械学習を用いた解析,予測システム [8]が作られつつある.学習対象とするデータセットを系統的に取得するのは難しいため,今回は解析用の知見を得るために,まず波形生成がシステム化されている音楽情報を対象としたスペクトル解析を試みた.Googleが提供しているMagenta [9]パッケージを使用し,訓練データとして既存の楽曲16曲に深層学習を適用して新たな楽曲データを生成した.このデータをFigure 2のようにメルスペクトログラムとよばれる時系列ごとの周波数データに変換し,コサイン類似度を求めることで類似度を判定したところ,学習回数が増えるごとに訓練データとの類似度が上昇した.
Example of mel-spectrogram
この解析を元に,ラマンスペクトルのデータを対象として化合物の類似度判定を行った.Kaggle [10]より数種類の化合物のラマンスペクトルのcsvファイルを入手し,コサイン類似度を用いて化合物間の類似度を判定した.対象は最も簡単なジアルデヒドであるglyoxalと,メチル基を持つ似た構造であるmethylglyoxal,大きく構造が異なるpentosidineの三種とした.スペクトルのデータをFigure 3に示すが,glyoxal-methylglyoxal間, glyoxal-pentosidine間のコサイン類似度はそれぞれ0.68, 0.21と3倍以上の差をもって類似度を判別することができた.このように,あくまで検討段階ではあるが,分子の特徴を反映したスペクトルを数値化して認識できることが確認できた.
Raman shift of the target molecules
今回の開発,分析により,機械学習技術は幅広い分野に,比較的低コストで適用可能であることが改めて明らかとなった.現在はそれぞれの技術を独立して扱っているが,分子記述子とスペクトルデータを組み合わせるような例も考えられ,精度向上のために多くの手段の検討の余地がのこっている.現在,開発したシステムをより化学分野へと改良するために,特定の分野に絞った詳細な論文分類システムの開発を進めている他,単純な物性だけでない分子間相互作用予測への適用を進めている.
本研究開発は,立教SFRから支援を受けた.