大域的な類似度に基づく単語分散表現の圧縮

大橋 空; 五十川 真生; 梶原 智之; 荒瀬 由紀

doi:10.5715/jnlp.28.235

抄録

本研究では，学習済み単語分散表現の品質を保持しつつモデルサイズを削減する．先行研究では，部分文字列の分散表現から単語の分散表現を構成し，学習済み単語分散表現を模倣してきた．これにより語彙サイズを削減できるが，品質を保持したまま著しくモデルサイズを削減することは困難であった．本研究では，似た意味を持つ単語同士が似たベクトルを持つという単語分散表現の特性を考慮して，対象単語の学習済み単語分散表現を模倣する通常の訓練に加えて，対象単語と他の単語たちとの類似度分布を模倣する訓練も行うマルチタスク学習を提案する．単語類似度推定の実験では，提案手法は部分文字列から単語分散表現を構成する既存手法の性能を改善し，同等の品質を保持してモデルサイズを 30 分の 1 に削減できた．テキスト分類の実験では，90% の品質を保持してモデルサイズを 200 分の 1 に削減できた．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）