2022 年 21 巻 1 号 p. 1-9
化学知識を有効活用するには,化学物質名とその構造,機能,製造方法,化学反応,用途などを効率よく抽出,整理,蓄積することが必要であるが,それには多大な時間と労力を伴う.英文からの化学物質名抽出については多くの研究が行われ,一定の成果が得られている.一方日本語文の場合,英文のように単語が空白や記号によって区切られていないため,化学物質名を単語として扱うには,最初に形態素解析を行って単語に区切り,細かく分離された単語をひとかたまりの単語として連結する必要がある.しかしながら,連結により,不要な部分が化学物質名についてしまう場合もある.本論文では,特許公開公報に化学物質名をタグ付けしたコーパスを作り,化学物質名の文字種,配置,前後の関係,文脈などに着目した単語切り出しとWord2Vecによるベクトル化を行い,コーパスを学習データとした機械学習モデルによる日本語文からの化学物質名抽出の可能性について検討する.