Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
Letters (Selected Paper)
Materials Curation®: Material Search with Multidisciplinary Use of Scientific Principles
Michiko YOSHITAKE
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2020 Volume 19 Issue 2 Pages 36-42

Details
Abstract

A method for interdisciplinary material search using knowledge database, materials curation, has been proposed. It enables the finding of a direction of search without numerical data from experiments or calculations. The knowledge used is a compilation of relations between materials properties. Examples of the compilation and the computer system used to search the compilation (in the form of network-type database) are demonstrated. Furthermore, a technique is under development to extract knowledge on quantitative relations from mathematical formula in literatures.

1 はじめに

マテリアルキュレーションとは,著者が提唱している,科学原理も含めた材料情報を分野横断的に活用して材料探索を行う手法で,その特徴は知識データベースを利用する点にある [1,2,3].データが少ない・ほとんど無い場合でも,科学法則を利用して材料探索すべき方向性を見つけることが可能である.今まで,応用物理学会の講演会においてその概念や具体例をいくつか発表し,その探索のツールとなる物性間関係図探索システムのデモ開発も行ってきた [4].現在,企業との共同研究により,テキストから自動的にコンピュータによって物性間の関係性の記述を抽出する技術,抽出された関係性をネットワーク型データベースにして,グラフ理論のアルゴリズムを用いた関係性探索ができるシステムのプロトタイプ開発を行っている [5].

2 物性間の関係性

2.1 関係性の利用例

Figure 1に示したのは,著者が,コンピュータの心臓部であるCMOSと呼ばれる素子などのデバイスの電極材料において,省電力化を実現する物性量である「仕事関数」と電極材料である遷移金属炭化物(不定比化合物)中の炭素組成の関係を予測するために用いた,様々な物性間の繋がりを示したものである.「仕事関数」は正しい値を計測するのが難しい物性量で,遷移金属炭化物の仕事関数の実測値はほとんどなく,ましてや炭素組成依存性については2つの化合物についてそれぞれ1つずつの結果があるのみである.しかもその二つは炭素組成依存性が逆方向というものである.仕事関数がどのような物理量によって決まるのかという原理を遡って追っていくことで,遷移金属炭化物の場合は「ビッカース硬度」という硬さの計測値から仕事関数の値を推測することができるという論理を見出した [6].その論理によると,実測値の存在する二つの化合物についてその炭素組成依存性が逆方向であることも説明できた.このような論理の繋がりを追っていくには,Figure 1に記載しているように,いくつもの専門分野を横断して繋いでいく必要がある.そのため,デバイス開発の観点から望ましい仕事関数の電極材料を探していた多くの研究者から驚きをもって受け止められた.

Figure 1.

 Connection diagram between the work function and Vickers hardness via various properties throughout many scientific fields.

このような分野横断的に原理を遡って思考することは,画期的な材料の発見の裏で必ず行われていると推測されるが,それが表に公表されることはほとんど無い.次に挙げるカーボンアロイ触媒という燃料電池正極用触媒の例は,発見の裏の思考を著者が推測したものである.従来は白金をカーボンに担持したものが触媒として用いられ,いかに高価な白金の量を減らすか,白金をより安価な金属で置き換えるか,という研究が行われてきた.カーボンアロイ触媒は,炭素と窒素のみからなる金属を全く含まない触媒である [7].発見者は燃料電池ではなく有機合成の専門家であり,燃料電池正極における基本的触媒反応が有機合成における触媒反応と同じであること,その有機合成の触媒反応においては炭素をアンモニアとともに高温で熱処理したものに触媒能があることが数十年前から知られていたこと,の二つの知見を組み合わせてカーボンアロイ触媒の発見に至ったのではないかと考えている.なお,この触媒は実用化されBallard社のポータブル燃料電池に採用されている.

実験・計算の数値データが豊富に存在する場合には機械学習などの手法が有効であるが,上の例のように従来材料ではないがために数値データがほとんど存在しない場合に,科学法則を分野横断的にたどることにより数値データが無い材料系へと探索空間を広げる方法がマテリアルキュレーションである.この方法で重要なのが,科学法則を分野横断的にたどることができる知識データベースである.

2.2 簡単な関係性の例

次に,科学法則に基づいて物性間の関係性を作っていく簡単な例を挙げる.Figure 2 (a)は,原子が結合して分子を形成し,分子が多数集まって固体を形成する際の電子の軌道エネルギーを模式的に表したものである.分子の生成エンタルピーは,2つの原子の電子が作る結合性軌道に原子の電子が入ることによるエネルギー安定化である.また,単純な場合,結合性軌道(HOMO)と反結合性軌道(LUMO)の両方に電子が入るとエネルギー安定化がゼロになるように結合性軌道と半結合性軌道のエネルギーは決まる.そのため,分子の生成エンタルピーはA原子の電子の安定化(α+β)にO原子の電子の安定化βを足して,α+2βである.一方,HOMO-LUMOギャップは図からわかるように(α+2β)であり,分子の生成エンタルピーと同じである.次に,分子が多数集まって固体を形成する場合を考えると,結合性軌道と反結合性軌道が多数形成されそれがエネルギー幅を持ったバンド(帯),価電子帯と伝導帯となり,分子軌道のHOMO-LUMOギャップに相当するのが,価電子帯と伝導帯のバンドギャップになる.その時の固体の生成エンタルピーは各原子の電子が価電子帯に入ることによるエネルギー安定化なので,固体の生成エンタルピーは大体バンドギャップと同じと考えられる.また,バンドギャップは,エネルギー幅の分だけHOMO-LUMOギャップより小さいが,HOMO-LUMOギャップが大きければバンドギャップは大きいという比例関係は成立すると考えられる.実際に,金属酸化物の生成エンタルピー(金属の価数により規格化するため酸素一原子モル当たりに換算)とバンドギャップの値をプロットするとFigure 2 (b)の左図のように,良い比例関係にある.図中,BTO,STOと書かれているのはBaTiO3とSrTiO3を指し,複合酸化物でもこの関係が成立している.有機化合物の場合,HOMO,LUMOに関係しない結合も分子の生成エンタルピーに含まれていることが多いため,生成エンタルピーとHOMO-LUMOギャップに明確な比例関係はみられないが,分子のHOMO-LUMOギャップと分子が固体になった場合のバンドギャップとの間にはFigure 2 (b)の右図に示すように良い比例関係がある.また,上に述べたように,バンドギャップは,エネルギー幅の分だけHOMO-LUMOギャップより小さいことも見て取れる.

Figure 2.

 (a) Schematic illustration of formation of solids from atoms and their energetic states in atoms, molecules and solids. (b) Relation between formation enthalpy per oxygen mole and band gap in oxides (left) and relation between HOMO-LUMO gap and band gap in organics (right).

バンドギャップのエネルギーに相当する光を照射すると,価電子帯の電子は光を吸収して伝導帯に励起される.したがって,光の吸収・反射スペクトルからバンドギャップの値を求めることができる.また,ある温度における価電子帯の電子は,温度に応じて一部が伝導帯に熱励起されており,この伝導帯の電子が電気伝導を担う.温度が決まるとどのエネルギーにどのぐらいの電子が励起されるかは決まっているため,バンドギャップの大きさと電気伝導率の間には関係がある.その他,電気化学反応における酸化還元電位Eが,その電気化学反応のギブスエネルギー変化ΔGとE=-ΔG/nF (nは電気化学反応に関わる電荷の価数,Fはファラデー定数)の関係にあることは物理化学の教科書に出ている.また,反応に気体の発生が含まれていない場合,エントロピー変化ΔSは反応のエンタルピー変化ΔHに比べて小さく,ΔGをΔHで近似できることが知られている.

上に述べた簡単な例を中心に,物性間の関係を線でつないで示した図がFigure 3である.Figure 3は非常に簡単な関係のみを記述しているが,これを利用することで,材料の色(光吸収スペクトル)から電池材料としての良し悪し(酸化還元電位)を推測することができる.

Figure 3.

 Network graph of some simple connections among properties.

2.3 関係性のデータベースと探索システム

今までは,物性間の関係を図の形で示しており,どの物性とどの物性が繋がっているかは図を見れば一目瞭然であった.しかし,実際には多くの物性が様々につながっており,今まで示したように手入力で繋いでいっても,簡単に数十個程度の物性間の関係が見いだされる.そのぐらいの数になると図を見て繋がりを確認するのは困難になる.一方,このようなつながりのデータはネットワークデータと呼ばれ,一般社会では様々に利用されている.例えば,電車の路線においてある駅からある駅へどの駅でどの路線に乗り換えると良いかを探索する例などが身近である.ネットワークデータは,数学において「グラフ」と呼ばれ,このようなデータを様々に解析する手法がグラフ理論において確立している.グラフ理論のアルゴリズムを用いると,どの物性とどの物性が繋がっているかや,ある物性と直接つながっている物性,一つ別の物性を介して繋がっている物性などを簡単に見つけることができる.Figure 4に,各物性をA,B,C,,,などのアルファベットで,そのつながりを線で表した物性間関係性の模式図を示す.物性Aと物性Bの繋がりを探索すると,最短(AとBの経路の間に介在する物性の数が最小)では,A-N-Bと物性Nを介して繋がっている(繋ぐ線が2本.Figure 4の太線).間に2つの物性を介する(繋ぐ線が3本)つながりは,A-C-F-B,A-N-F-B,A-K-E-Bの3通りある(Figure 4の破線).また,物性Mがどんな物性とつながっているかを探索すると,直接つながっている(線が1本)ものがD,E,N,Q,U,Vの6個,これら6個を介して繋がっている物性が(線2本) A,B,F,G,H,K,L,P,T,Y,Zである.デモ版 [4]では,手入力されたいくつかの物性間のつながりについてこのような探索を行うシステムを開発し,探索にはpythonのnetworkXモジュール [8]を利用した.

Figure 4.

 Schematic illustration of the network graph, where each alphabet corresponds to a certain material property.

著者が書籍を読んでつながりのデータを入力するのでは,データ数にも分野にも限りがある.そこで,自然言語処理技術を用いてコンピュータにより自動的に物性間の繋がりを抽出してつながりのデータベース(ネットワークデータベース)を作成し,それを探索するシステムのプロトタイプ開発を企業と共同で行った [5].先のnetworkXはデータベースを持つ構造になっていないため,プロトタイプではネットワークデータベースにグラフ理論のアルゴリズムを搭載したソフトウェアNeo4j [9]の無償利用できるコミュニティーバージョンを使用した.9冊の教科書から自動抽出した関係性が搭載されたプロトタイプは何回か公開を行っており,Figure 5に示したのは探索結果の表示画面の一例である."tensile strength"(引張強度)が"thermal conductivity"(熱伝導率)と繋がっていることが示されており,そのつながりの線をクリックするとコンピュータがどの書籍のどの文からつながりを見つけたのかが表示される.つながりの原理など詳細について知りたい場合は,この情報を利用して出典を当たることができる.

Figure 5.

 Example of search result with information on the clicked connection in the proto-type system.

3 定量的関係性の抽出

目的とする物性が,他のどの物性と関係しているかを調べ,Figure 5のシステムに表示される関係性を記述している書籍の内容を調査することで,物性Aを大きくすると直接関係している物性Bが比例して大きくなり,Bと直接関係している物性Cが反比例的に減少し,というような定量的関係を追っていくことは可能である.しかし,そのような定量的関係性もシステムのデータベース上に蓄積できれば,数的関係も含めて探索が可能になり,利便性は非常に高い.そこで,物性間の定量的関係性を文書から抽出する技術 [10]を開発中である.定量性を最も詳細に抽出する方法として,文書中の数式を抽出することを考えた.

3.1 数式の抽出

現在,教科書的な書籍のうち電子ベースで供給されているものはPDF形式が多い.論文については,ウェブブラウザ―上で表現する方法として,XML [11]アプリケーションの一つで数式を記述するためのマークアップ言語であるMathML [12]が使われるようになってきた.論文のように文書の一部として使用するには,XHTML [13]に埋め込んでXHTML形式として扱われる.XHTMLでは,MathMLによる数式部分は<math *>(*は任意を表す)で始まり,</math>で終わる.これにより,XHTML形式の文書から数式部分を抽出することが可能である.書籍についてはXTHML形式による供給はほとんどないので,我々は,InftyReader [14]というソフトウェアを利用し,PDFをXHTMLに変換している.XHTML形式に変換されれば,上記と同様MathML部分を抽出することができる.なお,XHTMLに埋め込んで扱われているMathMLは表現MathML [15]と呼ばれる,ウェブ上で上付きや下付きなどの見た目を整えるための形式で,数式の数学的意味を表しているわけではない.

3.2 数式の数学的意味

表現MathMLは見た目を整えるための形式で,例えば,y=a*x2という式があった場合に,xに上付きの記号2がついていることを表現しており,xの2乗であることは意味していない.物性xと物性yとの間に上の式で表される定量的関係があったとして,物性xの値を大きくすると物性yの値がxの値の二乗に比例して大きくなる,逆にyの値を小さくすると,xの値がyの値の平方根に比例して小さくなる,という関係を表現するには,数学的意味が表現される必要がある.そのようなMathMLとして内容MathML [16]という形式がある.

表現MathMLを内容MathMLに変換するプログラムは,単純な数式に関しては,Wiris社が販売する数式エディタMathTypeWeb [17]のオプション機能として含まれており,今回はそれを利用した.MathMLは複雑な数式にも対応しているので,公表されている規格に従って変換プログラムを作成することは可能と考えられる.Figure 6に示したのは,PDF形式で与えられた書籍 [18]の数式(画像データ),PDF形式からXHTML形式に変換して該当数式部分のみを抜き出した表現MathML (テキストデータ),表現MathMLを内容MathML (テキストデータ)に変換した例,である.

Figure 6.

 (a) A part of PDF file, (b) presentation MathML corresponding to eq. (11.4) in XHTML file converted from PDF file of (a), (c) content MathML converted from (b).

3.3 数式の変換

物性間の関係式を探索する際には,先に例を挙げたように,物性xから物性yを見つける場合と,物性yから物性xを見つける場合の二通りがあり,それによって左辺に来る式の変数が異なる.したがって,一つの数式から,それぞれの変数(物性)を左辺にした,変数の数だけの数式を生成する必要がある.そのような式変形は,pythonのSympy [19]というモジュールを使用すると可能である.そこで,まず内容MathMLに変換された数式を,pythonのSympyで扱える形式(一般に我々がコンピュータ上で数式を扱うときの形式)に変換し,一般的なy=f (x)の式から,f (x)-yを表現式として定義し,Sympyのsolveメソッドに,表現式と左辺にしたい変数(この場合x)を引数として入れれば,x=f (y)−1(fの逆関数)が具体的な式の形として出力される.現在は,y=f (x)の形の数式の内容MathMLを入力すると,それを一般的な数式の形に変換してSympyを用いてx=など,別の変数を左辺とする式の形に変形し,その結果の数式を内容MathML形式で出力するというプログラムになっている.

3.4 変数の記号が表す物性

一般に数式には記号が用いられ,例えば密度をdで表すなどがなされており,物性間の関係性データベースに入力されている各物性との対応付けを行わないと,数式を関係性と対応させることができない.そのため数式を抽出する際に,数式中の各記号が何を意味するかを元のXHTMLのテキストデータから見つける必要がある.まだプログラムは開発中であるが,変数の記号とその記号が表す物性を対応付ける方法の基本は以下のとおりである.表現MathMLにおいて,変数となる記号は,原則的に<mi>と</mi>で囲まれている.そこで,<mi>と</mi>で囲まれた記号が入った文章を,数式の表現MathML外のテキストから見つける.例えば,Figure 6に示した数式の前後には以下のような文章があり,'<math xmlns="http://www.w3.org/1998/Math/MathML"><mi mathvariant="italic">Q</mi></math> is the activation energy (in units of cal/mol) for diffusion of the species under consideration (e.g., Al in Si), <math xmlns="http://www.w3.org/1998/Math/MathML"><mi mathvariant="italic">R</mi></math> is the gas constant',Qが拡散の活性化エネルギーを表していることが分かる.実際には必ずしもこのような単純な説明文とは限らないため,より複雑な記述から記号と物性との対応を取るソフトウェアを開発中である.なお,分野が異なると同じ記号が別の物性を表すのに用いられるため,一律に記号と物性の対応表を作成することはできず,一冊の書物,あるいはチャプター,特定の数式の中のみ,において,それぞれのXHTML文書に基づいて対応付けが必要である.

4 最後に

数値データが少ない・ほとんど無い場合でも,科学法則を利用して材料探索すべき方向性を見つける手法であるマテリアルキュレーション の考え方と,この手法に特徴的な物性間の関係性の知識をネットワーク型データベースとして蓄積し検索を可能にするシステムの開発状況について報告した.書籍からコンピュータにより自動的に物性間の関係性についての知識を抽出する技術と,関係性を数式から定量的に抽出する技術の基礎部分は完成しているが,不特定多数のユーザーが実用的に利用できるレベルには達していない.それにはまだ細かい多くの技術開発が必要で,企業との共同研究を通じて実現していきたいと考えている.

謝辞

This work was partly supported by JSPS KAKENHI Grant Number JP16K06283.

引用文献
 
© 2020 Society of Computer Chemistry, Japan
feedback
Top