機械学習による予備検索を考慮した効率的な特許調査 文書のベクトル化方法、文書分類の特許調査への応用

安藤 俊幸

doi:10.11514/infopro.2020.0_43

抄録

特許調査の上流工程である予備検索課程に特許調査と機械学習の観点から着目して自分でできる調査の効率化の基礎検討を行うものである。ブラックボックス化を避ける為にも特許調査は、最近のAIシステムに丸投げという方向性は目指さず、「人」が行うべきところと機械学習で行った方が良いところを仕分けする。性能評価方法の考え方は商用のシステムの性能評価にも応用可能である。

特許調査の観点からは予備検索は調査範囲の確定と検索キー（特許分類、特徴キーワード）の抽出が重要である。検討対象としては過去にも検討を行い正解が分かっているガスバリア性フィルムの分野の問題を対象とした。

機械学習の観点からは、文書のベクトル化手法としてBag of Word(BoW)モデル、TF・IDFモデル、分散表現ベクトルのモデルとしてAve-word2vec、doc2vec、Ave-fastTextを検討した。文書ベクトルのソースとして大別してテキスト（タイトル、要約、請求項）と特許分類（特にFターム）による文書ベクトルを作成・比較した。

機械学習による文書分類の手法としてはXGBoost(eXtreme Gradient Boosting)パッケージを利用した。XGBoostの他に7種類の文書分類アルゴリズムを検討した。

文書のベクトル化手法と文書分類モデルの性能は交差検証した。結果は概ねTF・IDF文書ベクトルを用いてXGBoostによる文書分類モデルが良い傾向を示した。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）