自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
27 巻, 1 号
選択された号の論文の6件中1~6を表示しています
巻頭言
一般論文
  • 原 拓也, 松崎 拓也, 横野 光, 佐藤 理史
    2020 年 27 巻 1 号 p. 3-30
    発行日: 2020/03/15
    公開日: 2020/06/15
    ジャーナル フリー

    本論文では,日本語係り受け解析器に対する追加訓練の効果を複数のドメインにわたって俯瞰的に調べた結果を報告する.この分析のために,適応先ドメインデータを利用した追加訓練の前後それぞれの誤りを収集し,解析器の内部状態から得られる,密な実数値ベクトルで表現された係り受け誤りの埋め込み表現に対してクラスタリングを行った.得られたクラスタに対する定量的・定性的分析を通じて,係り受け誤りの種類や頻度を,複数の適応先ドメインにわたって,包括的に把握することができた.特に,追加訓練の効果が強く見られたクラスタや,効果が薄かったクラスタについて,それらに属する誤りを観察することで,追加訓練に関するドメインごとの特徴に関する仮説を立て,コーパス上の統計量によって検証するという分析の流れが効率化された.分析の結果から,追加訓練の主要な効果は,類似した文型に対する正しい構文構造の分布がドメイン間で異なることを学習することであるという示唆を得た.

  • 大矢 康介, 阪本 浩太郎, 渋木 英潔, 森 辰則
    2020 年 27 巻 1 号 p. 31-63
    発行日: 2020/03/15
    公開日: 2020/06/15
    ジャーナル フリー

    本稿では,世界史に関する大学入試論述問題に対して自動要約手法に基づき解答を自動生成する際の知識源の一つとして世界史用語集に注目し,見出し語と語釈部に分かれている文書データから解答となる文章を作成するために,語釈文における見出し語に照応するゼロ代名詞とその表層格を推定する手法を提案する.本稿の扱うタスクは,先行詞候補が見出し語に限られている一方でそれに照応するゼロ代名詞を複数の候補から一つ選ぶという点,および先行詞である見出し語が文中に存在しないため,照応解析において有効な手掛かりとなる先行詞の文脈情報が全く使えないという点で,従来のゼロ代名詞照応解析とは異なる.世界史用語集を対象とした評価実験を行った結果,KNP を用いた既存のゼロ照応解析を使用した手法に比べ,提案手法が有効であることが確認された.さらに,出現頻度の低い表層格で埋め込まれる場合の精度低下が観察されたため,通常の文から擬似訓練事例を生成する手法を検討した.同事例を使用した結果,ヲ格,ニ格の推定の F 値を改善できることが確認された.

応用システム論文
  • Yuiko Tsunomori, Ryuichiro Higashinaka, Takeshi Yoshimura, Yoshinori I ...
    2020 年 27 巻 1 号 p. 65-88
    発行日: 2020/03/15
    公開日: 2020/06/15
    ジャーナル フリー

    In our commercial chat-oriented dialogue system, we have been using an utterance database created from a massive amount of predicate-argument structures extracted from the web for generating utterances. However, because the creation of this database involves several automated processes, the database often includes non-sentences (ungrammatical or uninterpretable sentences) and utterances with inappropriate topic information (called off-focus utterances). Additionally, utterances tend to be monotonous and uninformative because they are created from single predicate-argument structures. To resolve these problems, we propose methods for filtering non-sentences by using neural network-based methods and utterances inappropriate for their associated foci by using co-occurrence statistics. To reduce monotony, we also propose a method for concatenating automatically generated utterances so that the utterances can be longer and richer in content. Experimental results indicate that the non-sentence filter can successfully remove non-sentences with an accuracy of 95% and that our focus filter can filter utterances inappropriate for their foci with high recall. We also examine the effectiveness of our filtering methods and concatenation method through an experiment involving human participants. The experimental results indicate that our methods significantly outperform a baseline in terms of understandability and that the concatenation of two utterances leads to higher familiarity and content richness while retaining understandability.

  • Arseny Tolmachev, Daisuke Kawahara, Sadao Kurohashi
    2020 年 27 巻 1 号 p. 89-132
    発行日: 2020/03/15
    公開日: 2020/06/15
    ジャーナル フリー

    An NLP tool is practical when it is fast in addition to having high accuracy. We describe the architecture and the used methods to achieve 250× analysis speed improvement on the Juman++ morphological analyzer together with slight accuracy improvements. This information should be useful for implementors of high-performance NLP and machine-learning based software.

技術資料
feedback
Top