自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
大域的な類似度に基づく単語分散表現の圧縮
大橋 空五十川 真生梶原 智之荒瀬 由紀
著者情報
ジャーナル フリー

2021 年 28 巻 1 号 p. 235-252

詳細
抄録

本研究では,学習済み単語分散表現の品質を保持しつつモデルサイズを削減する.先行研究では,部分文字列の分散表現から単語の分散表現を構成し,学習済み単語分散表現を模倣してきた.これにより語彙サイズを削減できるが,品質を保持したまま著しくモデルサイズを削減することは困難であった.本研究では,似た意味を持つ単語同士が似たベクトルを持つという単語分散表現の特性を考慮して,対象単語の学習済み単語分散表現を模倣する通常の訓練に加えて,対象単語と他の単語たちとの類似度分布を模倣する訓練も行うマルチタスク学習を提案する.単語類似度推定の実験では,提案手法は部分文字列から単語分散表現を構成する既存手法の性能を改善し,同等の品質を保持してモデルサイズを 30 分の 1 に削減できた.テキスト分類の実験では,90% の品質を保持してモデルサイズを 200 分の 1 に削減できた.

著者関連情報
© 2021 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top