自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
技術資料
nwjc2vec: 国語研日本語ウェブコーパスから構築した単語の分散表現データ
新納 浩幸浅原 正幸古宮 嘉那子佐々木 稔
著者情報
ジャーナル フリー

2017 年 24 巻 5 号 p. 705-720

詳細
抄録

我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.

著者関連情報
© 2017 一般社団法人 言語処理学会
前の記事
feedback
Top