Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
速報
シンボリック回帰における外挿性の検証とペロブスカイト触媒への応用
磯田 拓哉高橋 栞中野 匡彦中嶋 裕也清野 淳司
著者情報
ジャーナル フリー HTML

2023 年 22 巻 2 号 p. 37-40

詳細
Abstract

The recent advances in artificial intelligence (AI) have accelerated the development of data-driven modeling. Complex machine learning models often lack interpretability. Symbolic regression, particularly in the fields of mathematics and physics, has provided alternative models that are interpretable and have excellent extrapolation capabilities. In this study, we investigated the potential of symbolic regression in chemistry, specifically in the exploration of new materials through extrapolation. We conducted fundamental verification of extrapolation and applied research on the exploration of perovskite catalysts using the recursive-LASSO-based symbolic regression. Our results suggested that symbolic regression exhibits superior extrapolation performance and interpretability compared to conventional machine learning methods.

Translated Abstract

The recent advances in artificial intelligence (AI) have accelerated the development of data-driven modeling. Complex machine learning models often lack interpretability. Symbolic regression, particularly in the fields of mathematics and physics, has provided alternative models that are interpretable and have excellent extrapolation capabilities. In this study, we investigated the potential of symbolic regression in chemistry, specifically in the exploration of new materials through extrapolation. We conducted fundamental verification of extrapolation and applied research on the exploration of perovskite catalysts using the recursive-LASSO-based symbolic regression. Our results suggested that symbolic regression exhibits superior extrapolation performance and interpretability compared to conventional machine learning methods.

1 はじめに

近年,化学を含む幅広い分野において,人工知能(AI)技術とビッグデータを活用したデータ駆動型のモデリングによる研究が盛んである.現在のAI技術の中心的な手法として,機械学習や深層学習が用いられる.これらの手法は有機/無機材料開発においても非常に高度な予測•提案を実現してきた.しかし,高度な機械学習や深層学習を利用して構築されたモデルは過度にブラックボックス化し,モデルやその結果を人間が解釈することは難しい.また学習データへの依存性が大きく,学習データから離れた空間にある材料を予測することが困難である.そのため,近年では解釈性の高いモデルを与える説明可能AI (XAI)技術の開発が進んでおり,数学 [1, 2]や物理学 [3, 4]の分野においても活発に研究されている.

このXAIの手法の一つとしてシンボリック回帰 [5]がある.この手法は明示的な初等関数型の非線形モデルを構築することで高い予測性能と解釈性を両立させる.構築されたモデルから新しい化学原理•法則や新規材料創出のヒントが得られる可能性がある.また構築された明示的なモデルは学習データへの過度な依存性を抑え,未学習のデータ領域に存在する材料を高度に予測可能であることが期待される.そこで本研究では,シンボリック回帰における基礎的な外挿性の検証を実施した.さらにペロブスカイト触媒の活性に関する外挿性の検証を行い,新規材料探索に向けたシンボリック回帰の有効性を議論する.

2 方法

本研究では,シンボリック回帰手法として,Least Absolute Shrinkage and Selection Operator (LASSO)回帰を利用した,再帰的LASSO型シンボリック回帰(RLS) [6]を用いた.先行研究に基づいて独自に実装し,種々の検証を行った.Figure 1にRLSの流れを示す.まず,①初期の特徴量と目的変数を取得する.次に,②特徴量に四則演算や三角関数などの算術演算子を作用させ,新たな特徴量を生成する.③LASSO回帰の寄与が小さい,または寄与しない項を強制的に削除するという特徴を利用して,特徴量を選択する.この②と③を再帰的に繰り返すことでより複雑な非線形の項を持つ数式を探索する.最後のサイクルにおいて導出された数式を最終的な数式とすることで,④データを最も良く表現する数理モデルが獲得される.

Figure 1.

 A schematic flow of RLS.

本研究では,シンボリック回帰に対する比較対象として,13種類の機械学習の回帰手法を用いた(Linear, Ridge, LASSO, Elastic Net, Bayesian Ridge, KRR (Linear), KRR (RBF), SVR (Linear), SVR (RBF), Decision Tree, Random Forest, GPR, ARD).ハイパーパラメータに関して,RLSではOptuna [7]を利用した5分割交差検証により,その他の機械学習手法ではグリッドサーチを用いたLeave-One-Out法により決定した.

3 外挿性に関する検証

3.1 基礎的な初等関数

シンボリック回帰における外挿性の基礎的な検証として,複数の変数や四則演算,三角関数を含む初等関数をベンチマークとして作成し,性能を調査した.学習データの領域を変えて,RLSによりモデルを構築し,学習データ外の領域のデータを精度よく予測できるかを確認した.Table 1に作成したベンチマークデータセットにおける12種類の関数と各変数の定義域を示す.

Table 1. Benchmark functions for extrapolation verification.

No.FunctionRange (train + test)
1y = x12+8x1+2-30 < x1 < 30
2y = x13+8x1+4-100 < x1 < 100
3y = x1x2- x22-100 < x1, x2 < 100
4y = x2/x1+x12-100 < x1, x2 < 100
5y = x13-x23+ x22-100 < x1, x2 < 100
6y = cos (x1)-4π < x1 < 4π
7y = sin (x12)-4π < x1 < 4π
8y = cos (x1)+sin (x2)-4π < x1, x2 < 4π
9y = 1/cos (x1)+sin (x22)-4π < x1, x2 < 4π
10y = x1/x2-100 < x1, x2 < 100
11y = x12/2x2-100 < x1, x2 < 100
12y = 1/x1 −1/x2-100 < x1, x2 < 100

Figure 2に関数No. 2とNo. 7に対する結果を示す.学習データの領域を赤で示し,この領域が(a)狭い場合と(b)広い場合についての結果である.学習データの数を共に1000点とした.比較のために13種類の機械学習の中で最も平均絶対パーセント誤差(MAPE)が小さい2種類(GPR, RF)の結果も記載する.この結果,双方の関数において,GPR/RFは赤い領域から離れた学習データ外の領域に対する予測が難しいことがわかる.一方,RLSでは学習データ領域,学習データ外の領域の両方で精度よく予測できた.

Figure 2.

 Predictions of the functions No. 2 (upper) and No.7 (lower) using RLS and machine learning schemes.

Table 2にすべてのベンチマーク関数に対する結果を示す.ここで,Range (train)は学習させたデータの範囲を示し,RLSが関数を十分に表現できる領域で設定した.数値は学習データ外の領域におけるMAPEである.この結果,RLSはNo. 8, 9以外のベンチマーク関数において0.123%未満の誤差で予測でき,外挿性が高いことが確認された.また,No. 8, 9では,複数の変数により複雑であること,三角関数の近似式となるような項を優先することに起因して,RLSでは導出できなかった.これらの問題を解決することでRLSの表現能力が向上することも示唆された.

Table 2. MAPEs [%] for RLS and top-2 machine learning methods.

No.Range (train)RLSGPRRF
1-2 < x1 < 21.23 × 10−11.29 × 1021.76 × 102
2-2 < x1 < 29.24 × 10−29.95 × 1011.00 × 102
3-4 < x1, x2 < 41.13 × 10−11.03 × 1029.98 × 101
4-2 < x1, x2 < 28.75 × 10−41.00 × 1021.00 × 102
5-8 < x1, x2 < 81.63 × 10−31.00 × 1029.98 × 101
6-π < x1 < π2.98 × 10−33.03 × 1021.17 × 103
7-1/2π < x1 < 1/2π3.36 × 10−32.23 × 1025.84 × 102
8-1/2π < x1, x2 < 1/2π1.14 × 1051.99 × 1021.14 × 103
9-1/2π < x1, x2 < 1/2π9.95 × 1029.99 × 1035.92 × 102
10-1< x1, x2 < 11.15 × 10−21.00 × 1021.27 × 103
11-4 < x1, x2 < 45.74 × 10−61.00 × 1026.92 × 101
12-1 < x1, x2 < 14.07 × 10−31.00 × 1021.79 × 105

なお関数の表現能力について,我々は物理化学分野におけるこれまでに提案されてきた化学原理に対して,複数のシンボリック回帰を適用することで検証してきた [8].

3.2 ペロブスカイト触媒の活性

シンボリック回帰における外挿性の応用的な検証として,ペロブスカイト触媒の酸素発生反応(OER)の活性予測に適用した.データとして,Wengらの論文 [9]に記載されている酸化物ペロブスカイトに関するデータを使用した.このデータに含まれる特徴量は,ペロブスカイト触媒の許容係数,八面体係数,原子価状態,遷移金属イオンのd電子数,A•Bサイトイオンにおけるイオン半径と電気陰性度の8つである.目的変数は,実験により測定されたlinear sweep voltammetryの電位である.既存の18種類の酸化ペロブスカイト触媒に加え,論文 [8]中でシンボリック回帰の結果に基づき提案された5種類の新規の触媒のデータを利用した.我々の研究では,これらのデータの性質を詳細に調査し,予測モデルの外挿性に関して議論する.

まずデータの性質を調べるため,次元削減により既存(Existing)と新規(New)の触媒データの分布を確認した.次元削減の手法として,データ間の距離や類似性に基づいて低次元データに変換するt分布型確率的近傍埋め込み法(t-SNE)を用いた.Figure 3にt-SNEにより8次元から2次元に圧縮された特徴量を可視化した図を示す.この結果,NewはExistingとは異なる領域に分布されることが示され,外挿領域にあることに相当する.

Figure 3.

 Scatter plot of perovskite catalyst feature space after t-SNE dimension reduction.

続いてFigure 4にExistingとNewに対する OER活性の予測結果を示す.RLSと13種類の機械学習手法による結果を載せた.Existingに対する予測では,RLSのMAEは2.16 × 10−2 eVであり,他の機械学習手法と同程度であった.Newに対する予測では,すべての機械学習において0.44 eV以上と誤差が大きい.一方,RLSではMAEが4.66 × 10−2 eVと,Existingと同程度であった.また外挿領域の予測可能性をより詳細に検証するため,学習データとテストデータを複数パターンに分けたときの,予測結果をSupplementary Materials (SM)にまとめる.これらの結果から3.1および3.2の議論と同様の結論が得られた.以上のことから,シンボリック回帰が外挿性の高い予測を可能とすることが示された.

Figure 4.

 MAEs in OER activities for Existing (upper) and New (lower) catalysts.

さらに,RLSによって構築された数理モデルを以下に示す.

  
VRHE=3.31×102RA×Nd+2.85×102RB+3.32×103RA2/μ+1.88×103Nd+1.75(1)

ここで,RA, RBはA, Bサイトのイオン半径,Ndは遷移金属イオンのd電子数,μは八面体係数である.この式より,Aサイトに大きなカチオン,Bサイトに小さなカチオンを採用することでOER活性の高い触媒が得られることが示された.これは経験的な知見と矛盾せず,シンボリック回帰が明示的な数理モデルを伴った解釈性の高い予測を可能とすることが示された.

またRLSの学習に要する計算時間は,再帰的なサイクルにおける繰り返しの数と各サイクルの特徴量の数の増減に依存する.本研究のすべての結果は,各サイクルにおける特徴量の数の増減が少なかったため,LASSO回帰を数回実行する計算時間とほぼ同等であった.

4 まとめ

本研究では,シンボリック回帰手法の化学における実問題に対する有効性の検証として,外挿性の検証を行なった.基礎的な性質の検証では,シンボリック回帰が機械学習手法と比較して高い外挿性を持つことが示された.応用的な検証では,ペロブスカイト触媒の活性予測において,学習データ内•外に対する高精度かつ解釈性の高いモデルを構築した.ここから,新規材料探索におけるシンボリック回帰の有効性が示唆された.

謝辞

この研究は独立行政法人日本学術振興会(JSPS)科学研究費(JP21K04998)の補助を受けている.また,本研究の一部は計算科学研究センター(RCCS)の計算機を利用して行なった.

参考文献
 
© 2023 日本コンピュータ化学会
feedback
Top