自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
単語埋め込みに基づくサプライザル
浅原 正幸
著者情報
ジャーナル フリー

2019 年 26 巻 3 号 p. 635-652

詳細
抄録

ヒトの文処理のモデル化として Hale によりサプライザルが提案されている.サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている.日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する.一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた.本論文では,この問題を解決するために単語埋め込みを用いる.skip-gram の単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した.さらに,skip-gram の単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した.

著者関連情報
© 2019 一般社団法人 言語処理学会
前の記事
feedback
Top