2022 年 21 巻 4 号 p. 90-93
In this study, we used a benchmark dataset to evaluate the impact of scaling with the extrapolation domain on the prediction performance of machine learning algorithms. We pseudo-divided the data into the interpolation domain (training data) and the extrapolation domain (test data) using a combination of UMAP (Uniform Manifold Approximation and Projection) and material domain knowledge. In anticipation of bridging interpolation and extrapolation domains in nonlinear machine learning algorithms, we evaluated how the scaling considering the extrapolation domain affects prediction performance in the extrapolation domain. For this evaluation, we used three nonlinear algorithms widely used in the MI (Materials Informatics) domain: XGB (XGBoost) regression, GP (Gaussian Process) regression, and SVR (Support Vector Regression). In this study, by defining the pseudo extrapolation domain, we established the approach for evaluating the prediction accuracy of machine learning models in the extrapolation domain, which is considered difficult to evaluate quantitatively. We also demonstrated that this method, which uses scaling that considers the extrapolation domain, is an effective method for improving prediction accuracy in the extrapolation domain while maintaining prediction accuracy in the interpolation domain.
In this study, we used a benchmark dataset to evaluate the impact of scaling with the extrapolation domain on the prediction performance of machine learning algorithms. We pseudo-divided the data into the interpolation domain (training data) and the extrapolation domain (test data) using a combination of UMAP (Uniform Manifold Approximation and Projection) and material domain knowledge. In anticipation of bridging interpolation and extrapolation domains in nonlinear machine learning algorithms, we evaluated how the scaling considering the extrapolation domain affects prediction performance in the extrapolation domain. For this evaluation, we used three nonlinear algorithms widely used in the MI (Materials Informatics) domain: XGB (XGBoost) regression, GP (Gaussian Process) regression, and SVR (Support Vector Regression). In this study, by defining the pseudo extrapolation domain, we established the approach for evaluating the prediction accuracy of machine learning models in the extrapolation domain, which is considered difficult to evaluate quantitatively. We also demonstrated that this method, which uses scaling that considers the extrapolation domain, is an effective method for improving prediction accuracy in the extrapolation domain while maintaining prediction accuracy in the interpolation domain.
昨今,材料開発の分野においてMI (Materials Informatics)と呼ばれる機械学習を用いて材料の特性を予測する試みが行われており,その適用範囲は有機材料 [1],無機材料 [2],有機-無機のコンポジット材料 [3]と多岐に渡る.MIを用いた材料開発を推進する際にしばしば問題となるのが,機械学習モデルから見て既知の探索空間(学習時にデータが存在するデータ空間.以下,内挿領域と呼ぶ.)ではなく,未知の探索空間(学習時にデータが存在しないデータ空間.以下,外挿領域と呼ぶ.)の特性を予測することが一般的に困難とされることである.また,外挿領域での機械学習モデルの予測精度についても定量的な評価が難しいことが現状である.
また,データの線形性が高い場合は,線形の機械学習アルゴリズムを使用し,線形補完を行う等の外挿領域へのアプローチが考えられるが,データの線形性が低い場合は,非線形の機械学習手法を使用することが望ましいため,線形補完等の手法は適切なアプローチとは言えず,内挿領域と外挿領域の関係性が不明瞭である.加えて,使用するデータに適した機械学習アルゴリズムを選択することが一般的には望ましいとされる.
そこで,我々は非線形の機械学習アルゴリズムに対して一様に適用できる外挿領域へのアプローチとして,外挿領域を考慮したスケーリングに注目した.本研究では,UMAP (Uniform Manifold Approximation and Projection) [4]と材料ドメイン知識の掛け合わせにより,疑似的にデータを内挿領域(training data)と外挿領域(test data)に分けた際に,外挿領域を考慮したスケーリングが非線形の機械学習アルゴリズムの予測性能にどのような影響を与えるかについて評価を行った.
本研究では,ベンチマークデータセットとして公開されている DFT (Density Functional Theory)計算によるデータ [5, 6]を使用した.このデータセットは155の水準から構成され,分子構造のSMILES (Simplified Molecular Input Line Entry System)と,物性値(バンドギャップ,誘電率のイオン的な寄与を示すepsilon_i,誘電率の電子的な寄与を示すepsilon_e)からなる [7].
2.2 疑似的な内挿領域・外挿領域の設定次に,本データを使用して疑似的な内挿領域・外挿領域の設定を試みた.はじめに,UMAPによるデータのクラスタリングを実施した.クラスタリングには分子構造の関係性可視化に特化しているChemplot [8]を利用した.
2.3 scalerの作成2.2で設定した疑似的な内挿領域のデータをtraining data, 疑似的な外挿領域をtest dataとして,StandardScaler [9]を利用し,説明変数側のscalerとして,training-data scaler, all-data scalerの2つのscalerを作成した.目的変数側のscalerは,training-data scalerのみを作成した.ここでtraining-data scalerはtraining dataから作成したscalerであり,all-data scalerはtraining data とtest dataの2つのdataを結合させたものから作成したscalerのことである.
2.4 機械学習モデルの構築説明変数はSMILESからRDKit [10]を用いて計算した構造記述子を,目的変数にはバンドギャップ,epsilon_i,epsilon_eを使用した.非線形の機械学習アルゴリズムとして,今回は内挿領域の予測精度に優れる傾向にある勾配ブースティング木系のXGB (XGBoost)回帰 [11],ベイズ最適化等にも用いられ外挿領域の予測に向いているとされるGP (Gaussian Process)回帰 [9],ノイズの影響を受けにくく多変量の回帰問題に向いているとされるSVR (Support Vector Regression) [9]の3種を使用した.学習の際に説明変数側のscalerとして,training-data scalerを使用する場合とall-data scalerを使用する場合との結果を比較することで,外挿領域を考慮したスケーリングであるall-data scalerが機械学習アルゴリズムの予測性能に与える影響を評価した.なお,目的変数側のscalerは,検証時のリーク(実際の機械学習モデル運用時には使用ができない情報が,予測精度の検証に用いるデータに含まれることにより,検証時の予測精度を過大評価してしまうこと)を防ぐためにtraining-data scalerで統一した.これは実際の機械学習モデル運用時は,test dataの正解が分からない状態であるため,目的変数側ではall-data scalerを作成することができないことを考慮している.
疑似的な内挿領域・外挿領域の設定のため,データをUMAPにより5つのclusterに分割した.UMAPにより分割したclusterを2次元上にプロットし,疑似的な内挿領域・疑似的な外挿領域及び各clusterの代表的な化学構造を描画したものをFigure 1に示す.構造の描画にはRDKitを使用した.ここで,それぞれのclusterの化学構造に着目すると,cluster3は鎖状の構造を持つ化合物のcluster,cluster0, 1, 2, 4は環状の構造を持つ化合物のclusterであったため,疑似的にcluster0, 1, 2, 4を内挿領域(training data),cluster3を外挿領域(test data)とした.

Showing the two-dimensional plot of the clusters divided by UMAP, with the pseudo interpolation domain, the pseudo extrapolation domain, and the representative chemical structures for each cluster added.
また,構築した機械学習モデルにおいて,内挿領域における交差検証での決定係数の値R2CVとtest dataでの決定係数の値R2testをtraining-data scaler, all-data scalerで比較した結果について,目的変数がバンドギャップの場合をFigure 2,目的変数がepsilon_iの場合をFigure 3に示す.なお,目的変数がepsilon_eの機械学習モデルについてはR2testがtraining-data scaler, all-data scalerのいずれの場合もマイナスの値をとり,比較検証が困難であったため今回は除外することとした.交差検証はleave-one-out cross validationにて実施した.

Comparing the coefficients of determination of the constructed machine learning model (the objective variable: band gap) with the training-data scaler and the all-data scaler, where (a) is XGB, (b) is GP, and (c) is SVR.

Comparing the coefficients of determination of the constructed machine learning model (the objective variable: epsilon_i) with the training-data scaler and the all-data scaler, where (a) is XGB, (b) is GP, and (c) is SVR.
Figure 2,3より,R2CVはtraining-data scalerとall-data scalerとの比較において,XGB, GP, SVR全てにおける共通の傾向は見られないが,R2testに着目すると,XGB, GP, SVR全てにおける共通の傾向として,training-data scalerよりもall-data scalerの方が,決定係数が高いことが分かる.なお,一般にTree based modelの機械学習アルゴリズムは,Tree based modelではない機械学習アルゴリズムに比べて,スケーリングの影響を受けにくいことが知られているが,実際に今回XGB, GP, SVRの結果を比較すると,Tree based modelの機械学習アルゴリズムであるXGBの結果は,Tree based modelではない機械学習アルゴリズムのGPやSVRの結果に比べてscalerによる差が小さい傾向であることが分かる.
以上より,外挿領域を考慮したスケーリングであるall-data scalerを使用する本手法が内挿領域での予測精度を保ったまま,外挿領域での予測精度向上に有効な手法であることが示唆される.
本研究ではベンチマークデータセットを用いて,UMAPと材料ドメイン知識の掛け合わせにより,疑似的にデータを内挿領域と外挿領域に分割し,機械学習アルゴリズムの予測性能における外挿領域を考慮したスケーリングの影響評価を行った.本結果より,疑似的な外挿領域を定義することで,定量的な評価が難しいとされる外挿領域での機械学習モデルの予測精度を評価可能なアプローチを確立できた.
また,外挿領域を考慮したスケーリングを使用する本手法が,非線形の機械学習アルゴリズムに対して一様に適用できる外挿領域へのアプローチとして,内挿領域での予測精度を保ったまま,外挿領域での予測精度向上に有効な手法であることを明らかにした.