主催: 日本毒性学会
会議名: 第51回日本毒性学会学術年会
開催日: 2024/07/03 - 2024/07/05
自然言語処理と同様に化合物を文字列として処理する化学言語モデルは、記述子生成等、化合物構造を扱う機械学習の方法論として活用されている。SMILES表記は最も頻用される入力形式であるものの、生成システムごとに処理方法が統一化されておらず、Canonical SMILESにも表記揺れが存在する。「SMILES表記の方言」とも呼べる表記揺れは化学言語モデルの応用に影響を及ぼすだろうか?上記問いに答えるべく、本研究では以下の検討に取り組んだ。
まず表記揺れの要因を調査したところ、多くのデータセットで立体異性を考慮したSMILES表記とそうでないものとが混在していることを見出した。42種類のデータセットに関して、本来付与されているべき異性体の情報が付与されていない割合は、光学異性体40%、及びcis-trans異性体8.7%であった。データセット間での立体異性情報の差は、化学言語モデル適用時に影響を与えると推察される。そこで事前学習用データセットのSMILESに対し、①標準的な前処理のみ、②3次元構造を計算して明示的に立体異性情報を付与する処理、及び③立体異性情報を明示的に除外する処理を施した3つのモデルを構築した。これらのモデルを用い、対応する処理を施したAmes試験のデータセットを対象に、翻訳精度(化合物構造を符号・復号可能か)、及び分類精度(Ames試験の結果の予測精度)を評価した。結果、翻訳精度は処理②・③により大幅に向上した一方、分類精度の向上は僅かであった。
以上より、(1)化合物データベースは立体異性に関して表記揺れが多いこと、及び(2)立体異性を考慮することが化学言語モデルを適用する際の精度向上に資する可能性を見出した。現在アテンション機構により、予測に寄与する部分構造の解析に取り組んでいる。適切な化学言語モデルの運用はAmes変異原性予測の向上に資すると期待される。