情報プロフェッショナルシンポジウム予稿集
第16回情報プロフェッショナルシンポジウム
会議情報

A32
機械学習を用いた特許文書分類における入力ベクトルの影響
西尾 潤安藤 俊幸
著者情報
会議録・要旨集 フリー

p. 37-42

詳細
抄録

特定技術分野における「特許請求の範囲」を入力文とし、人為的に分類ラベルを付与したデータセットを自作し、教師あり機械学習で文書分類を行うとき、機械学習モデルに入力する文書ベクトルの違いが精度に及ぼす影響について報告する。

機械学習モデルは、TensorflowをバックエンドとするKerasで1次元CNNを使用するニューラルネットワークと、非線形SVMとを実装した。

形態素解析はMeCabとsentencepieceとを比較検討した。

また、入力ベクトルは辞書ID列をKerasのエンベッド層に入力する方法、形態素頻度情報、TF-IDF、Word2Vecによる分散表現のそれぞれをKerasの全結合層に入力する方法及びSVMに入力する方法を比較検討した。

また、入力文字列の長さがが文書によってまちまちである点について着目し、文字列の後方をカットしたときの影響についても考察する。

本検討はアジア特許情報研究会における2018年のワーキングである。

著者関連情報
© 2019 一般社団法人 情報科学技術協会
前の記事 次の記事
feedback
Top