2017 年 24 巻 5 号 p. 705-720
我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.