2021 Volume 20 Issue 1 Pages 14-21
本研究では自社の実験データを用いて,熱硬化性樹脂コンポジットを工業応用する際に重要となる比誘電率(ε),誘電正接(tanδ)予測に向けた機械学習モデルを構築した.機械学習モデルの構築には近年注目を集めている勾配ブースティング木(GBDT)系のアルゴリズムを含む幅広い手法を採用した.複数の手法にて構築したモデルの中で,Training data setにおける交差検証(Cross-validation)時の決定係数R2CV > 0.8を満たすモデルを抽出した.更にTraining data set においてRMSE (Root Mean Square Error)及びMAE (Mean Absolute Error)の値が小さく,より定量的な物性予測が可能と考えられるモデルを選択し,Test data setにおける評価を行った.その結果,RMSEやMAEがε及びtanδそれぞれの平均値に対して10−1∼10−2オーダーで物性予測可能な機械学習モデルが得られた.本結果より,熱硬化性樹脂コンポジットにおいてもMI (Materials Informatics)によるアプローチが有効であり,定量的な特性予測が可能であることを初めて実証した.今後の開発において,本アプローチを用いることで材料開発期間の短縮及び材料開発の促進を期待する.
In this study, we constructed machine learning models for predicting the relative permittivity (ε) and dielectric loss tangent (tanδ), which are important for the industrial application of thermosetting resin composites, using our own experimental data. We adopted a wide range of methods, including gradient boosting decision tree (GBDT) algorithms, which have been attracting attention in recent years, for the construction of machine learning models. Among the constructed models with multiple methods, we extracted models that satisfy the coefficient of determination R2CV > 0.8 at the time of cross-validation in the training data set. Furthermore, we selected the model in which the values of RMSE (Root Mean Square Error) and MAE (Mean Absolute Error) were small in the training data set and could predict the physical properties more quantitatively and evaluated them in the test data set. As a result, we obtained a machine learning model in which RMSE and MAE can predict physical properties on the order of 10−1 to 10−2 for the mean values of ε and tanδ, respectively. From this result, we have demonstrated for the first time that the approach by MI (Materials Informatics) is effective even for thermosetting resin composites and that quantitative property prediction is possible. We expect that the development period will be shortened and promoted using this developed MI approach.
熱硬化性樹脂は,耐熱性,耐腐食性,含浸性等の良さを生かして工業的に多様な分野に応用,使用されている [1].昨今では,様々なニーズに応えるために,Figure 1に示すように,熱硬化性樹脂に無機フィラーや補強部材等を複合化させ熱硬化性樹脂コンポジットとして機械特性,熱特性,電気特性等,様々な機能性を付与させることがある.
The basic concept of the addition of functions to the thermosetting resin.
しかしながら,青柳らによれば高分子を用いた複合材料の場合,相互作用等が複雑になるために粗視化分子モデルをもってしても材料シミュレーションを利用した定量的な物性予測は困難とされる [2].
そこで,我々は機械学習による開発アプローチに着目した.昨今,AI (Artificial Intelligence)を材料開発に利用する動きが世界中で活発であり,その中核をなす技術が機械学習と呼ばれる手法である.この機械学習を駆使して材料開発を推進する分野をMI (Materials Informatics)と呼ぶ.実際に,電池材料 [3],半導体材料 [4],高分子材料 [5],接着剤 [6], 医薬品・生体材料 [7]へのMI適用報告がある.
一方で向田らによれば高分子材料は近年注目を集めながらも構造の複雑性,多様性から考察すべき特徴量が多く,機械学習のタスクに落とし込む際に複数の樹脂のブレンドを扱う際にはその表現方法設定が更に難化するとされている [8].本研究で取り扱う熱硬化性樹脂コンポジットのような材料系へのMI適用は現時点で報告がなく,その要因として高分子材料自体へのMI適用の困難性に加え,熱硬化性樹脂と異種材料間の相互作用の取り扱いが困難であることが挙げられる.また,南らは機械学習による熱硬化性樹脂の物性予測を報告している[9].分子内の官能基等の部分構造に注目し,原材料のモル比でその部分構造から生成した記述子情報を重み付けし,Bayesian Ridge Regression [10]を用いることで配合系となる熱硬化性樹脂の物性予測を実現している.しかしながら熱硬化性樹脂コンポジットは構造記述子による算出が困難である構成材料が含まれているため,提唱されているアプローチを適用することは難しい.
そこで,本研究では熱硬化性樹脂コンポジットの特性を捉えることのできるよう特徴量を工夫し工業的に応用する際に重要視される電気特性を目的変数として,物性予測の汎化性能向上のために複数の機械学習手法の中からより適切な手法を抽出するアプローチを行った.本アプローチにより,熱硬化性樹脂コンポジット向け電気特性予測モデルを構築し,定量的な電気特性予測を実現した.
本研究では自社の熱硬化性樹脂コンポジットデータセットを利用し,Figure 2に示すアプローチを採用した.本研究で用いた熱硬化性コンポジットの一例をTable 1に示す.主剤(Thermosetting main resin),架橋剤(Thermosetting crosslinker),添加剤(Additive)等の複数の熱硬化性樹脂のブレンド(Thermosetting resin blend)に,異種材料である無機フィラー(Inorganic filler)及び補強部材(Reinforcement)が複合している.特徴量の数はそれぞれεが37個,tanδが41個であり,サンプル数はそれぞれεが231個,tanδが273個である.
The basic concept of the proposed approach.
第1ステップでは特徴量の設定を実施している.熱硬化性樹脂コンポジットの特性を捉えることのできるようここでは以下のような特徴量(X)の設定とした.まず熱硬化性樹脂のブレンド及び無機フィラーを樹脂組成物部(Resin composition part)としてこの部分を組成最適化問題(Composition optimization problem)として扱い,補強部材種別をOne hot encodingで与えている.そして樹脂組成物部の組成最適化問題と補強部材種別のOne hot encodingを結ぶ中間的な特徴量として熱硬化性樹脂コンポジットにおける樹脂組成物の含有割合(Resin content)を導入した.そこに主剤の分子量(Mw),電気特性測定時の周波数(Frequency)を組み合わせている.次に第2ステップとして,従来から知られている機械学習手法に加えて近年「Kaggle」等のテーブルデータ(行と列の形式の表データ)における分析コンペティションにおいて注目を集めている勾配ブースティング木(Gradient Boosting Decision Tree: GBDT)系の機械学習手法を含めた18種の機械学習手法にて目的変数(y)の予測モデル構築を行った.第3ステップとして,構築した機械学習モデルの中からより定量的に物性予測が可能と考えられるモデルを選定した.第4ステップとして,選定した機械学習モデルを使用してTest data setに対する電気特性予測を行い,構築したモデルの評価を実施した.本研究における機械学習モデルの構築には,PythonのオープンソースライブラリであるPyCaretを利用した [27].
データセットのうち70 %をTraining data set,30 %をTest data setとした.Training data setに対してFigure 2に示す械械学習手法にてε及びtanδそれぞれについて予測モデル構築を行った.この時,5分割の交差検証を実施した.
モデルの一時抽出では,回帰分析の当てはまりの良さを示す指標である決定係数R2に着目することとした.ここではFigure 2に示す18個の機械学習手法において,PyCaretのデフォルトのハイパーパラメータ値 [28]にて各種モデルを構築し,R2の閾値を0.8と設定した.Training data setにおける交差検証(Cross-validation)にて,18 種類の機械学習手法からTraining data setにおける交差検証時の決定係数R2CV > 0.8 を満たす予測モデルをε及びtanδそれぞれについて抽出し,RMSE (Root Mean Square Error),MAE (Mean Absolute Error)に着目して抽出したモデルの比較を行った.それぞれの評価指標での比較結果及びこの時の各種モデルのハイパーパラメータをTable 2, 3に示す.εについてはTable 2に示すようにR2CV > 0.8を満たす予測モデルとしてAdaBoost,CatBoost,Extra Trees,XGBoost,Gradient Boosting,Random Forestの6つのモデルを抽出することができた.この中でRMSE及びMAEの値が小さくTraining data setの中でより定量的な物性予測モデルが構築できていると考えられるCatBoostによるε予測モデルをTest data setの評価用モデルとして選定した.また,tanδについてはTable 3に示すようにR2CV > 0.8を満たす予測モデルとしてAdaBoost,CatBoost,Decision Tree,Extra Trees,XGBoost,Gradient Boosting,LightGBM,Random Forestの8つのモデルを抽出することができた.こちらもこの中でRMSE及びMAEの値が小さくTraining data setの中でより定量的な物性予測モデルが構築できていると考えられるCatBoostによるtanδ予測モデルをTest data setの評価用モデルとして選定した.
選定したそれぞれのモデルを用いてε及びtanδを予測値(Prediction)として算出し,実測値(Observation)との比較を行うことでモデルの評価を行った.評価結果をFigure 3に示す.ここで,R2test,RMSEtest,MAEtestはそれぞれTraining data setにて構築した機械学習モデルのTest data setに対する決定係数,RMSE,MAEを表す.CatBoostによるε予測モデルでは,機械学習モデルの構築に用いていないTest data setに対して,RMSEtestがεの平均値の3 %,MAEtestがεの平均値の2 %で物性予測可能であることが分かる.同様にCatBoostによるtanδ予測モデルではRMSEtestがtanδの平均値の18 %,MAEtestがtanδの平均値の10 %で物性予測可能であることが分かる.
Prediction vs. Observation plot of CatBoost for (a) ε and (b) tanδ.
以上より,定量的な物性予測が困難とされる熱硬化性樹脂コンポジットにおいて,定量的な物性予測が可能な機械学習モデルが得られたと考えられる.
構築した機械学習モデルについて,特徴量の重要度(Feature importance)可視化結果をFigure 4に示す.CatBoostモデルの特徴量の重要度については構築したε及びtanδのモデルが保持しているfeature_importances_属性から算出している [28].CatBoostモデルのfeature_importances_属性はPredictionValuesChangeと呼ばれる指標に基づき導出される [29].CatBoostモデルの特徴量の重要度は該当の特徴量が変化した場合に目的変数の予測が平均してどの程度変化するかを表し,重要度の値が大きいほど該当の特徴量が変化した場合の目的変数の予測値の変化は平均して大きくなる.特徴量の重要度可視化結果より,Figure 2に示したXのうちε及びtanδに対する重要度をそれぞれ確認することができる.この可視化結果から,樹脂組成物部の組成最適化問題と補強部材種別のOne hot encodingを結ぶ中間的な特徴量として導入したResin contentの重要度がε及びtanδの両方において大きいことが分かる.このことから,特徴量においてResin contentの導入が適切であったことが示唆される.
Feature importance by using CatBoost for (a) ε and (b) tanδ.
本研究では,熱硬化性樹脂コンポジットのε及びtanδに着目し,それぞれの電気特性を推測する機械学習モデルを構築した.その結果,従来粗視化分子モデルをもってしても材料シミュレーションでは困難とされていた熱硬化性樹脂コンポジットの定量的な特性予測を実現した.本結果より,熱硬化性樹脂コンポジットにおいてもMIによるアプローチが有効であり,定量的な特性予測が可能であることを初めて実証した.
本研究のアプローチを熱硬化性樹脂コンポジットに適用していくことで,ヴァーチャル的実験による試作予定実験水準の削減,ターゲットとなる物性への特徴量の重要度可視化による材料開発指針策定への貢献が期待できる.また,本研究では,熱硬化性樹脂コンポジットの物性としてε及びtanδに着目したが,本アプローチは他の材料物性にも有効である.熱硬化性樹脂コンポジットでは,電気特性,熱特性,機械特性等考慮すべき材料物性が多数存在するため,物性の種類を問わず検証可能な本アプローチは有用であると考えられる.更に,熱硬化性コンポジットを構成する異種材料の種類が変化しても本アプローチは適用可能であり,今後開発が加速していくことを期待する.