人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 4Rin1-77
会議情報

対数共起頻度を用いた四項類推:word2vecとPMI との比較
*加藤 龍彦日髙 昇平鳥居 拓馬
著者情報
会議録・要旨集 フリー

詳細
抄録

近年の単語埋め込みモデルは,類推課題において様々な意味課題,中でも類推課題において高い正答率を持つことが示されてきた.この高正答率の理由としては,モデルが構成する単語ベクトルの内積が,自己相互情報量(PMI)で重み付けされた共起頻度を近似するためである,という説明がなされ,そのためPMI行列が類推課題に重要な情報を有していると考えられてきた.しかしこの説明は,PMI自体が類推と関連付けられていないため,類推課題に関する高正答率に対する説明としては不十分である.本稿では類推課題に対する共起行列の重要性を更に探るため,元の共起頻度行列の構造をPMIよりも保つ対数共起頻度行列について,類推課題の正答率を比較した.実験の結果として,対数共起頻度行列(logreq)はPMI行列に迫る精度で課題に回答可能であり,logfreqにSVDを施した場合には他の手法を超える精度を示すことが分かった.この結果はPMI行列が類推課題に高正答率を得る上で必要ではないこと,また対数共起頻度行列は,PMIに対して元の行列の性質を保存することから,元の共起行列の性質を分析することが重要であることを示唆する.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top