2021 年 28 巻 1 号 p. 235-252
本研究では,学習済み単語分散表現の品質を保持しつつモデルサイズを削減する.先行研究では,部分文字列の分散表現から単語の分散表現を構成し,学習済み単語分散表現を模倣してきた.これにより語彙サイズを削減できるが,品質を保持したまま著しくモデルサイズを削減することは困難であった.本研究では,似た意味を持つ単語同士が似たベクトルを持つという単語分散表現の特性を考慮して,対象単語の学習済み単語分散表現を模倣する通常の訓練に加えて,対象単語と他の単語たちとの類似度分布を模倣する訓練も行うマルチタスク学習を提案する.単語類似度推定の実験では,提案手法は部分文字列から単語分散表現を構成する既存手法の性能を改善し,同等の品質を保持してモデルサイズを 30 分の 1 に削減できた.テキスト分類の実験では,90% の品質を保持してモデルサイズを 200 分の 1 に削減できた.