Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
研究論文
特許公開公報文章からの化学物質名の抽出
田中 るみ子中山 伸一
著者情報
ジャーナル フリー HTML

2022 年 21 巻 1 号 p. 1-9

詳細
抄録

化学知識を有効活用するには,化学物質名とその構造,機能,製造方法,化学反応,用途などを効率よく抽出,整理,蓄積することが必要であるが,それには多大な時間と労力を伴う.英文からの化学物質名抽出については多くの研究が行われ,一定の成果が得られている.一方日本語文の場合,英文のように単語が空白や記号によって区切られていないため,化学物質名を単語として扱うには,最初に形態素解析を行って単語に区切り,細かく分離された単語をひとかたまりの単語として連結する必要がある.しかしながら,連結により,不要な部分が化学物質名についてしまう場合もある.本論文では,特許公開公報に化学物質名をタグ付けしたコーパスを作り,化学物質名の文字種,配置,前後の関係,文脈などに着目した単語切り出しとWord2Vecによるベクトル化を行い,コーパスを学習データとした機械学習モデルによる日本語文からの化学物質名抽出の可能性について検討する.

著者関連情報
© 2022 日本コンピュータ化学会
前の記事 次の記事
feedback
Top