Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
研究論文
高屈折率および高ガラス転移温度をもつ高分子材料のモノマー設計
高野 森乃介金子 弘昌
著者情報
ジャーナル フリー HTML

2019 年 18 巻 2 号 p. 115-121

詳細
Abstract

本研究ではポリマー物性として屈折率 (refractive index, RI) およびガラス転移温度 (glass transition temperature, Tg) を対象にして,モノマーの化学構造から計算される構造記述子 X とそのモノマーを重合して得られるポリマーの物性 y との間で,高分子データベースを用いて物性推定モデルを構築し,構築されたモデルを用いて高い RI かつ高い Tg をもつポリマーを重合できると考えられる新規モノマー構造の設計を行った.モノマー構造の前処理方法・構造記述子・回帰分析手法を検討したところ,RDKit で構造記述子を計算し,support vector regression で回帰モデルを構築したときに,推定性能の良好な RI および Tg 推定モデルが得られた.RI と Tg がともに高いポリマーを達成するモノマーを設計するため,breaking of retrosynthetically interesting chemical substructure (BRICS) により仮想的な化学構造を生成し,モデルの適用範囲により推定値の信頼性を評価した後に,モデルを用いて RI および Tg を推定した.その結果,多様な化学構造が得られ,中には良好な RI および Tg の推定値をもつ化学構造が存在することを確認した.提案手法により複数の目標物性のある高分子材料の開発が促進することを期待する.

1 はじめに

ディスプレイやレンズなど様々な機器で用いられている材料において,屈折率 (refractive index, RI) は極めて重要な特性の一つである.RI の高い材料として主に無機材料が挙げられるが,貯蔵が不安定であることや加工性に乏しいことなどの欠点がある.そこで注目されているのが高分子材料である.高分子材料を用いることで従来の材料では困難であった輸送や加工が容易となる.しかし高分子材料は一般には RI が低いため,高い RI を持つポリマーが望まれている.さらにポリマーとして安定している必要があるため,ガラス転移温度 (glass transition temperature, Tg) も高くなければならない.

高い RI および高い Tg をもつ高分子材料を効率的に設計するためには,モノマーを合成してからそれを重合してポリマーにする前に,ポリマーの物性を推定する必要がある.物性の推定手法として定量的構造物性相関 (quantitative structure-property relationship, QSPR) [1] に着目する.QSPRとは,データベースを用いて化学構造を数値化した構造記述子 X と対象とする物性 y との間に構築された相関関係のことである.高分子材料のデータベースを用いて,モノマーの構造記述子を X,ポリマーの物性を y としたモデル y=f (X) を用いることで,モノマーの化学構造の情報のみから実験せずにポリマーの y の値を推定できる.またモノマーの化学構造を繰り返すことでポリマーを模倣した repeating unit [2,3,4] にしてから構造記述子を計算する研究も行われている.X とy との間のモデルを構築する手法として,線形回帰分析手法では partial least squares regression (PLS) [5],非線形回帰分析手法ではsupport vector regression (SVR) [6] が有名である.

これまで QSPR の分野において,RIの推定 [7,8,9] やTg の推定 [9,10,11,12] といった研究は行われてきたが,X と y との間の非線形性を考慮することは難しく,推定性能の高いモデルを構築することが望まれている.モノマーの構造は自由結合手のある化学構造として扱われるが,記述子を計算する前に自由結合手を処理しなければならないにもかかわらず,推定性能の高いモデルを構築するための前処理方法に関して議論が不十分である.さらに過去の研究では RI, Tg のどちらか一方の物性しか推定されておらず,もう一方の物性は考慮されていない.

本研究では,RI および Tg を高精度に推定するモデルを構築するため,回帰分析手法のみならずモノマー構造の前処理方法や記述子の計算方法を検討する.

RI および Tg を推定するモデルを構築した後,そのモデルを用いることでモノマーの構造のみからそれを重合した後のポリマーの RI および Tg の値を推定できる.様々なモノマー構造をモデルに入力し,RI および Tg の両方の推定値が高いモノマー構造のみ選択することで,望ましいポリマーを重合できると考えられる.さらにポリマー材料として RI および Tg 以外の物性や特性が求められることもあるため,多様なモノマー構造が得られることが望ましい.しかし,予測用のモノマー構造がモデル構築に用いたモノマー構造と類似していないと,仮に RI および Tg の推定値が高い値であっても,その推定値を信頼できず,推定誤差が大きい可能性がある.新たなモノマーに対するポリマー物性を推定するためにはモデルの適用範囲 (applicability domain, AD) [13] を考慮しなければならない.AD とはモデルが本来の推定性能を発揮できるデータ領域のことである.例えばモデル構築用データで X のデータ密度を計算し,データ密度が高い領域のみを AD 内とする.AD 内のモノマー構造のみを考慮することで信頼性のある推定値が得られる.

本研究では,高い RI および高い Tg をもつポリマーを重合するための信頼できるモノマー構造を,AD を考慮したモデルの逆解析により設計することを目的とする.高分子データベースを用いてモノマー構造から RI および Tg を推定する回帰モデルを構築する.次にコンピュータ上で仮想的なモノマー構造を生成し,AD 内の構造のみ選択する.選択された構造をモデルに入力することで物性値を推定し,その結果に基づいて良好な物性をもつと考えられる新規モノマー構造を探索する.

本手法の有効性を検証するために PolyInfo [14] からダウンロードしたデータベースを用いてモデルの構築および新規モノマー設計を行う.化学構造はrepeating unit としてダウンロードし,モノマー構造の前処理方法および記述子の計算方法を検討する.

2 手法

本手法の概念図を Figure 1 に示す.ポリマーのデータを収集し,ポリマーの RI と Tg を y,モノマーの構造記述子を X とする.モノマーの化学構造の自由結合手 * に対して,本研究では一般的に用いられている以下の 4 種類の前処理を行い検討する.

Figure 1.

 Basic concept of the proposed method

✓ 炭素原子に置換 (C)

✓ 水素原子に置換 (H)

✓ 二重結合に変換 (DB)

✓ 二量体に変換 (di)

前処理の例としてポリスチレンの場合を Figure 2 に示す.化学構造の表示には MarvinView [15] を利用した.なお,同じモノマーで重合条件が異なる場合は,重合温度や重合時間や添加剤の有無など重合条件を数値化したパラメータも,モノマーの構造記述子と一緒に回帰分析における説明変数として用いる.RI, Tg それぞれで y と X との間で PLS, SVR 等の機械学習手法により回帰モデルを構築する.モノマー候補の構造および重合条件からそのポリマーがもつと考えらえられるRI, Tg の値を実験なしに推定できる.これにより様々な種類かつ多数のモノマー構造を短時間のうちに評価可能となる.さらに,X から AD モデルを構築する.例えば k 最近傍法を用いて,新しいサンプルが AD 内か外か (Figure 1 (a) における Inside AD or not) を判定する場合,データベースにおけるすべてのサンプルと新しいサンプルとの間のユークリッド距離を構造記述子により計算し,距離が最も近い k 個のサンプルとの距離の平均値を指標として用いる.指標の値がしきい値以下であれば AD 内,しきい値を超えれば AD 外と判定される.AD 内の構造のみ物性を推定することで,推定値を信頼できる構造からモノマーを設計することが可能となる.

Figure 2.

 Examples of preprocessing monomer

モノマーの設計を行う際は,既存のモノマー化合物ライブラリの構造もしくはコンピュータ上で生成した仮想的なモノマー構造を用いる.しかし,Figure 1 (a) で構築された回帰モデルに,モデル構築時に用いた化学構造と類似していない構造を入力しても,その推定値は信頼できない.そこで予測用のモノマー構造の記述子を計算した後,AD モデルに入力し,物性の推定値を信頼できる AD 内の構造のみ選択する.次に,選択された構造をモデルに入力し,それらのRI, Tg の値を推定する.特にコンピュータ上で生成された化学構造は仮想的な構造であるため,合成可能性については全く考慮されていない.そこで化学構造の合成難易度の指標である SAscore [16] を一緒に計算する.SAscore により合成難易度を 1 (容易) から 10 (困難) で評価できる.RI, Tg, SAscore を考慮することで,ポリマーの物性値だけでなく合成可能性を考慮して,有望なモノマー構造の候補を選択できる.

3 結果と考察

本手法の有効性を検証するため PolyInfo [14] からダウンロードしたデータを使用した.使用したサンプルの数を前処理方法ごとに Table 1 に示す.データベースの RI と Tg において,一方の測定結果はあるがもう一方の測定結果はないサンプルがあるため,RI と Tg のサンプル数は異なる.

Table 1. Number of samples for each preprocessing method of monomer structures
RITg
C186173
H165173
DB123113
di165173

モノマー構造の構造記述子の計算には RDKit [17] と mordred [18, 19] を用いた.RDKit, mordred で計算された構造記述子のうち全化合物の 90% 以上で同じ値をもつ記述子を削除すると,それぞれ 95 個, 1613 個の構造記述子が残った.なおデータベースに RI の測定温度も記載されており,測定温度によって RI の測定結果も変化すると考え,RI のモデル構築には X として測定温度を追加した.

回帰モデル構築手法として PLS と SVR を採用し,scikit-learn [20] のライブラリを用いて計算した.RI, Tg それぞれにおいてすべてのサンプルを用いた double cross-validation (DCV) [21] によりモデルの推定性能を検証した.DCV は cross-validation (CV) を入れ子にすることで,内側の CV でハイパーパラメータを最適化し,外側の CV でモデル検証用データの推定性能を評価する方法であり,サンプル数が小さい場合でも推定性能を適切に評価可能である.DCV における内側の CV を 5-fold CV,外側の CV を leave one out CV とした.

ADは k最近傍法でデータ密度を計算 [22] することにより設定した.k の値は 5 とし,しきい値をデータベース内のサンプルの 99.7% が AD 内と判定される値とした99.7% は 3 シグマ法に由来する.

DCVによる推定結果を Table 2, 3 に示す.Mean absolute error (MAE) は推定誤差を表す指標であり,値が小さいほうが推定精度は高い.Table 2, 3 の MAE の値より,4 種類の前処理のうち,C や di の推定結果において誤差が小さく推定できた.モノマーからポリマーの物性を予測する際,隣接するモノマー構造からの影響を考慮できないという問題点があるが,C により隣接するモノマー構造における炭素原子からの影響を,di により隣接するモノマー構造からの影響を疑似的に説明できるようになり誤差が小さくなったと考えられる.また RI ではモノマー構造の前処理として di,構造記述子として mordred,回帰モデル構築手法として PLS のときに,Tg ではモノマー構造の前処理として C,構造記述子として RDKit,回帰モデル構築手法として SVR のときに,DCV における MAE が小さい結果を示した.コンピュータで生成する仮想的な化学構造の RI, Tg を推定してモノマー構造を設計する際,前処理方法を RI と Tg で統一したほうが望ましいため,RI でも 2 番目に DCV における MAE が小さかった,モノマー構造の前処理として C,構造記述子として RDKit,回帰モデル構築手法として SVR の組み合わせを用いる.

Table 2. MAE of RI in DCV for each preprocessing method, each molecular structure set and each regression method
PLSSVR
RDKitmordredRDKitmordred
C0.0360.0370.0290.031
H0.0410.0340.0310.033
DB0.0540.0560.0510.050
di0.0420.0280.0300.033
Table 3. MAE of Tg in DCV for each preprocessing method, each molecular structure set and each regression method
PLSSVR
RDKitmordredRDKitmordred
C80332931
H55404139
DB52504849
di55353731

モノマー構造の前処理として C,構造記述子として RDKit,回帰モデル構築手法として SVR の組み合わせを用いて,データセットのすべてのサンプルを用いてモデル構築を行った.構築されたモデルにデータセットのサンプルを入力して RI および Tg を推定した結果を Table 4 に示す.決定係数 r2 はモデルが説明できた y のばらつきの割合を示す.r2 も MAE も,すべてのサンプルで構築されたモデルを用いて,それらのサンプルにおける y の実測値と推定値で計算された.Table 4の r2 より,yのばらつきのうち RI のモデルでは 79% を,Tgのモデルでは 91%を X によって説明できた.

Table 4. r2 and MAE of RI and Tg using C, RDKit and SVR
r2MAE
RI0.790.027
Tg0.9119

RI, Tg それぞれにおける実測値と推定値とのプロットを Figure 3 に示す.それぞれ対角線付近に固まっているサンプルもある一方で,RI では 1.7 以上,Tg では 200°C以上で推定誤差の大きいサンプルが散見された.さらに実測値より推定値が小さい値となっている.RI で 1.7 以上,Tg で 200°C 以上をもつモノマー構造を今回構築されたモデルから設計する際は,AD内であってもモデル構築用データと同様の誤差をもつ可能性,および推定値より実際の物性値のほうが大きくなる可能性があるため注意が必要である.

Figure 3.

 Measured y vs. estimated y plot for RI and Tg using C, RDKit and SVR

モデル構築に使用したすべてのモノマー構造に基づいて,breaking of retrosynthetically interesting chemical substructure (BRICS) [23] により仮想的な化学構造を生成する.RDKit に実装されている BRICS モジュール [24] を使用し,新たな化学構造を 10000 個生成した.生成された構造から RDKit により構造記述子を計算し,AD の内側か外側かを判定する.AD 内の化学構造の数は 9778 個となった.

今回の予測対象の化学構造は BRICS により仮想的に生成された化学構造であり,それらの合成可能性は考慮されていないため,RDKit のsascorer [25] というライブラリでSAscore を計算した.すべて 4 以下であり,中程度の合成難易度であった.BRICS では逆合成的を考慮した化学構造生成をしているため,合成難易度が中程度であったと考えられる.

これらの構造を RI, Tg 推定モデルにそれぞれ入力する.物性の推定結果を Figure 4 に示す.赤い点はモデル構築用データの化合物 (実測値),灰色の点は AD 内のすべての仮想構造,青い点は AD 内の仮想構造のうちパレート最適な構造を表す.既存のモノマーから重合されたポリマーと比較して,RI, Tg の推定値が多様な新規モノマー構造が得られたことを確認した.既存の RI の実測値や Tg の実測値をそれぞれ推定値が超えられなかった要因としては,Figure 3 における高い RI および高い Tg をもつ分子において,実測値に対して低い値としてモデルにより推定されたことが考えられる.

Figure 4.

 RI vs. Tg plot. Red points mean training samples (measured values), gray points mean virtual structures inside AD and blue points mean the Paretian optimum structures

RI, Tgの推定値が良好であった構造の例を Figure 5 に示す.Figure 5 の構造に限らず,生成された構造のうち良好な物性を示した構造にはベンゼン環やニトロ基が存在していた.これらの官能基は高い RI かつ高い Tg のポリマーを重合するには重要であると考えられる.

Figure 5.

 Examples of structures with high estimated RI and Tg

4 結言

本研究ではポリマー物性の中で RI, Tg に着目し,モノマーの化学構造から両方の物性を推定するモデルを構築した.モノマー構造の前処理,構造記述子,回帰分析手法の検討を行ったところ,今回検討した中では自由結合手を炭素原子で置換し,RDKit で構造記述子を計算し,SVR で回帰モデルを構築することで,最良の推定性能をもつ物性推定モデルが得られた.

物性推定モデルだけでなく,AD モデルも構築することで新たなモノマー構造に対して物性を推定する際にも,推定値の信頼性を議論することが可能となった.また SAscore によりモノマーの合成難易度も考慮できる.提案手法により,複数の物性において物性の推定値およびその信頼度,そしてモノマーの合成難易度を考慮して,所望の物性を達成するポリマー材料を重合するための新規モノマー構造を探索可能となる.

今回のケーススタディでは高い RI および 高い Tg をもつ分子において推定誤差が大きい傾向が確認された.RI および Tg を向上させる高分子材料を探索するためには,推定誤差の低減が必要といえる.今回のデータベースには情報がなかったが,重合温度や重合時間や添加剤の有無など重合条件を数値化したパラメータも,モノマーの構造記述子と一緒に回帰分析における説明変数として用いることで推定性能が向上すると考えられる.

本研究ではポリマー物性として RI と Tg を対象としたが,データベースがあれば他の複数の物性に提案手法を応用することも可能である.提案手法を活用することで高機能高分子材料の開発が促進することを期待する.

参考文献
 
© 2019 日本コンピュータ化学会
feedback
Top