人工知能学会全国大会論文集
第34回全国大会(2020)
セッションID: 3Q5-GS-9-03
会議情報

単語埋め込みのノルムと方向ベクトルを区別した文間最適輸送コスト
*横井 祥高橋 諒赤間 怜奈鈴木 潤乾 健太郎
著者情報
キーワード: 自然言語処理, 最適輸送
会議録・要旨集 フリー

詳細
抄録

ふたつの自然言語文の意味的類似性が計算機によって精緻に計算できるようになれば,多くの自然言語処理アプリケーションの性能向上が期待できる.本稿では単語ベクトルのアラインメントに基づく新しい類似性尺度を提案する. まず,単語ベクトルとノルム(大きさ)と方向ベクトル(向き)には,単語の重要度と意味がそれぞれ暗黙的にエンコードされていることを示す.さらに,単語ベクトルのアラインメントに基づく既存の文類似性尺度(Word Movers' Distance,DynaMax,BERTScore)は,いずれもノルムと方向ベクトルを“混ぜて”利用してしまっていることを指摘する.提案法は,単語ベクトルを単位超球面に射影し超球面上で最適輸送コストを計算する.これによりノルムは重要度の計算に,方向ベクトルは単語の意味的類似性の計算にのみ用いることができるようになる.最適輸送を用いる副次的効果として文の構造情報も考慮できるようになる. 実験では,現在最も盛んに取り組まれている文類似度計算のベンチマークテストであるSTS-Benchmarkを含む複数のデータセットで提案法が過去最高の性能を達成することを示す.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top