自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
24 巻, 5 号
選択された号の論文の5件中1~5を表示しています
巻頭言
論文
  • 友利 涼, 二宮 崇, 森 信介
    2017 年 24 巻 5 号 p. 655-668
    発行日: 2017/12/15
    公開日: 2018/03/15
    ジャーナル フリー

    本稿では,将棋の解説文に対する固有表現を題材として,テキスト情報に加えて実世界情報を参照する固有表現認識を提案する.この題材での実世界情報は,固有表現認識の対象となる解説文が言及している将棋の局面である.局面は,盤面上の駒の配置と持ち駒であり,すべての可能な盤面状態がこれによって記述できる.提案手法では,まず各局面の情報をディープニューラルネットワークの学習方法の 1 つである stacked auto-encoder を用いて事前学習を行う.次に,事前学習の結果をテキスト情報と組み合わせて固有表現認識モデルを学習する.提案手法を評価するために,条件付き確率場による方法等との比較実験を行った.実験の結果,提案手法は他の手法よりも高い精度を示し,実世界情報を用いることにより固有表現認識の精度向上が可能であることが示された.

  • Fei Cheng, Kevin Duh, Yuji Matsumoto
    2017 年 24 巻 5 号 p. 669-686
    発行日: 2017/12/15
    公開日: 2018/03/15
    ジャーナル フリー

    One of the crucial problems facing current Chinese natural language processing (NLP) is the ambiguity of word boundaries, which raises many further issues, such as different word segmentation standards and the prevalence of out-of-vocabulary (OOV) words. We assume that such issues can be better handled if a consistent segmentation level is created among multiple corpora. In this paper, we propose a simple strategy to transform two different Chinese word segmentation (CWS) corpora into a new consistent segmentation level, which enables easy extension of the training data size. The extended data is verified to be highly consistent by 10-fold cross-validation. In addition, we use a synthetic word parser to analyze the internal structure information of the words in the extended training data to convert the data into a more fine-grained standard. Then we use two-stage Conditional Random Fields (CRFs) to perform fine-grained segmentation and chunk the segments back to the original Peking University (PKU) or Microsoft Research (MSR) standard. Due to the extension of the training data and reduction of the OOV rate in the new fine-grained level, the proposed system achieves state-of-the-art segmentation recall and F-score on the PKU and MSR corpora.

  • 笹野 遼平, 奥村 学
    2017 年 24 巻 5 号 p. 687-703
    発行日: 2017/12/15
    公開日: 2018/03/15
    ジャーナル フリー

    日本語二重目的語構文の基本語順に関しては多くの研究が行われてきた.しかし,それらの研究の多くは,人手による用例の分析や,脳活動や読み時間の計測を必要としているため,分析対象とした用例については信頼度の高い分析を行うことができるものの,多くの仮説の網羅的な検証には不向きであった.一方,各語順の出現傾向は,大量のコーパスから大規模に収集することが可能である.そこで本論文では,二重目的語構文の基本語順はコーパス中の語順の出現割合と強く関係するという仮説に基づき,大規模コーパスを用いた日本語二重目的語構文の基本語順に関する分析を行う.100 億文を超える大規模コーパスから収集した用例に基づく分析の結果,動詞により基本語順は異なる,省略されにくい格は動詞の近くに出現する傾向がある,Pass タイプと Show タイプといった動詞のタイプは基本語順と関係しない,ニ格名詞が着点を表す場合は有生性を持つ名詞の方が「にを」語順をとりやすい,対象の動詞と高頻度に共起するヲ格名詞およびニ格名詞は動詞の近くに出現しやすい等の結論が示唆された.

技術資料
  • 新納 浩幸, 浅原 正幸, 古宮 嘉那子, 佐々木 稔
    2017 年 24 巻 5 号 p. 705-720
    発行日: 2017/12/15
    公開日: 2018/03/15
    ジャーナル フリー

    我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.

feedback
Top