主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
近年自然言語処理では単語埋め込みモデルが,類推課題等の意味認知課題での好成績を根拠として,単語の意味的表現として標準的に用いられている.こうした単語埋め込みモデルの意味課題における性能についての理論的分析を行った研究では,単語埋め込みによる次元圧縮が重要であると考えられてきた.本研究では,この仮説を再考し,単語埋め込みをせずとも,その元データである共起確率行列に潜在する統計的性質に類推を行うための情報が存在すると考え,共起確率行列とその定常確率の分析を行った.その結果,特定の単語の組の共起確率行列がある種の“比例的な関係”にある時,定常確率にも比例関係が現れ,この性質が類推演算を行う上で重要であるとの予想を得た.実際,それに対応する分析から,同様の定常確率の比例的な関係があることが分かり,またその特徴量と類推成績には相関があることが示された.この知見は,ベクトル空間への埋め込みを行う以前に,マルコフ過程としての言語生成の確率過程に意味的構造が埋め込まれており,共起確率行列の統計構造を調べることで類推等で有用な意味的特徴を抽出できることを示唆する.