主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
ふたつの自然言語文の意味的類似性が計算機によって精緻に計算できるようになれば,多くの自然言語処理アプリケーションの性能向上が期待できる.本稿では単語ベクトルのアラインメントに基づく新しい類似性尺度を提案する. まず,単語ベクトルとノルム(大きさ)と方向ベクトル(向き)には,単語の重要度と意味がそれぞれ暗黙的にエンコードされていることを示す.さらに,単語ベクトルのアラインメントに基づく既存の文類似性尺度(Word Movers' Distance,DynaMax,BERTScore)は,いずれもノルムと方向ベクトルを“混ぜて”利用してしまっていることを指摘する.提案法は,単語ベクトルを単位超球面に射影し超球面上で最適輸送コストを計算する.これによりノルムは重要度の計算に,方向ベクトルは単語の意味的類似性の計算にのみ用いることができるようになる.最適輸送を用いる副次的効果として文の構造情報も考慮できるようになる. 実験では,現在最も盛んに取り組まれている文類似度計算のベンチマークテストであるSTS-Benchmarkを含む複数のデータセットで提案法が過去最高の性能を達成することを示す.