SDI特許調査への応用を目的に教師有りクラス分類について機械学習と特許調査の観点から調査の効率化の基礎検討を行った。SDI特許調査への応用として最初に人が査読/ノイズに仕分けた過去分の公報を教師データとして学習させ、新着公報を同様に2値分類させるタスクを想定し分類性能を検証した。SDI調査検討は、機械学習を組み込んでいる商用のAI利用特許調査ツール2種類とオープンソースソフトウエア(OSS)の機械学習ライブラリを使用した。
検討対象として出願件数が多く、SDI調査事例として検証しやすい顔料系インクジェットインクの分野を対象とした。
SDI調査結果の性能の指標として正解が分かっている集合の公開年毎の混同行列を集計して正解率、適合率、再現率、F値を算出した。結果は商用のAI利用特許調査ツール2種類とも適切に教師データを設定すれば概ね、正解率、再現率は80%を超え、適合率はさらに良い結果を示した。教師あり機械学習には良質な教師データの準備が重要である。