機械学習に必要なサンプル数に関する検討: Marcus理論を例として

吉田 一輝; 杉本 学

抄録

近年、機械学習を用いた化学および材料化学の研究が盛んに行われている。しかし、これらの分野の実験には多くの時間や費用を必要とするものが多いため、機械学習に利用可能な実験データの数は限定的であり、一般的に言われる「ビッグデータ」からはほど遠いのが現状である。本研究では、機械学習を用いて化学法則を再現する上で必要なデータ数を明らかにする目的で、電子移動反応速度に関するMarcus理論式を用いて実験値の代わりになるデータを生成し、検討を行なった。式中の反応基質の特徴を反映する3つのパラメータを乱数を用いて生成し、学習データとテストデータを各1000個作成した。学習データから任意の数を取り出し、0~30%の誤差を追加し、サポートベクターマシン（SVR）によって予測を行うことで性能を比較した。結果として学習データに誤差が含まれない場合にテストセットのR2値が0.8以上となるには、最低でも30個以上のデータが必要との結果になった。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）