ケモインフォマティクス討論会予稿集
第42回ケモインフォマティクス討論会 東京
会議情報

一般公演(B公演)
機械学習に必要なサンプル数に関する検討: Marcus理論を例として
*吉田 一輝杉本 学
著者情報
キーワード: 機械学習, Marcus理論
会議録・要旨集 フリー

p. 1B03-

詳細
抄録
近年、機械学習を用いた化学および材料化学の研究が盛んに行われている。しかし、これらの分野の実験には多くの時間や費用を必要とするものが多いため、機械学習に利用可能な実験データの数は限定的であり、一般的に言われる「ビッグデータ」からはほど遠いのが現状である。本研究では、機械学習を用いて化学法則を再現する上で必要なデータ数を明らかにする目的で、電子移動反応速度に関するMarcus理論式を用いて実験値の代わりになるデータを生成し、検討を行なった。式中の反応基質の特徴を反映する3つのパラメータを乱数を用いて生成し、学習データとテストデータを各1000個作成した。学習データから任意の数を取り出し、0~30%の誤差を追加し、サポートベクターマシン(SVR)によって予測を行うことで性能を比較した。結果として学習データに誤差が含まれない場合にテストセットのR2値が0.8以上となるには、最低でも30個以上のデータが必要との結果になった。
著者関連情報
前の記事 次の記事
feedback
Top