2024 年 31 巻 4 号 p. 1487-1522
時代とともに意味が変化する単語をコーパスから自動的に検出・分析する研究は,自然言語処理の研究者から注目を集めている.英語やドイツ語などの言語では,時期の異なる学習用コーパス(通時コーパス)の公開や評価用単語セットの作成が進んでいるため,盛んに研究が行われているが,日本語では不十分である.そこで本研究では,日本語の評価用単語セット JaSemChange を作成した.作成にあたり,近代から現代までを扱う 3 つの通時コーパスを使用し,対象単語の用例ペアをサンプリングした.19 個の対象単語に関する合計 2,280 の用例ペアに対して 4 人の専門家が意味類似度をアノテーションし,それらを用いて単語の意味変化度合を算出した.その後,本評価セットを用いて,単語ベクトルに基づく意味変化検出手法の性能評価を行った.頻度に基づく手法をベースラインとし,タイプベースとトークンベースの代表的な手法の性能を比較し,それぞれの手法の特徴を議論した.本研究で作成した,意味変化度合が付与された単語セット,および用例ペアに対するアノテーションスコアは GitHub で公開した.