抄録
新規に作成した文書に付与するタイトルの検討に当たり、過去の文書群の中から内容が同じ文書のタイトルを候補として提示する支援機能を開発している。この中で本研究は、タイトルの意味まで考慮して候補を提示するために、自然言語処理の手法を用いてタイトルの意味をベクトル化し、ベクトル間の類似度をもとに可能な限り文書の内容が同じタイトルのみを抽出し得る最適な類似度のしきい値を調査した。fastText、BERT、SBERTの各手法で算出した類似度を比較した結果、手法によって類似度が高くなる文書の特徴が異なることが判明した。そこで、複数の手法で算出した類似度の調和平均を用いて再度検証した結果、fastTextとSBERTによる類似度の調和平均が0.96以上の場合に抽出されるタイトル157組のうち141組(90%)の文書の内容が一致し、各手法で個別に求めた類似度で判定した結果よりも高い精度が得られた。