自然言語処理

巻頭言

自然言語処理技術をサービスの現場へ導入する際のちょっとしたポイント

山下達雄

2019 年26 巻1 号 p. 1-2
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.1

ジャーナルフリー

PDF形式でダウンロード (145K)

論文

Universal Dependencies 日本語コーパス

浅原正幸, 金山博, 宮尾祐介, 田中貴秋, 大村舞, 村脇有吾, 松本裕治

2019 年26 巻1 号 p. 3-36
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

Universal Dependencies (UD) は，共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである． 2018 年 6 月現在，約 60 の言語で 100 以上のコーパスが開発・公開されており，多言語構文解析器の開発，言語横断的な構文モデルの学習，言語間の類型論的比較などさまざまな研究で利用されている．本稿では UD の日本語適応について述べる．日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する．また，依存構造木では表現が難しい，並列構造の問題についても議論する．最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する．

抄録全体を表示

PDF形式でダウンロード (680K)
複数文質問を対象とした抽出型および生成型要約

石垣達也, 高村大也, 奥村学

2019 年26 巻1 号 p. 37-58
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.37

ジャーナルフリー

抄録を表示する抄録を非表示にする

インターネット上のコミュニティ QA サイトや学会での質疑応答の場面などにおいて，人々は多くの質問を投げかける．このような場面で用いられる質問には，核となる質問に加え補足的な情報をも付与され，要旨の把握が難しくなることもある．補足的な情報は正確な回答を得るには必要であるが，質問の要旨を素早く把握したいといった状況においては必ずしも必要でない．そこで本稿では，新たなテキスト要約課題として，複数文から構成される質問テキストを単一質問文に要約する“質問要約”を提案する．本研究ではまず，コミュニティ質問応答サイトに投稿される質問から質問テキスト－要約対を獲得し，必要な要約手法について抽出型および生成型の観点から分析を行う．また，獲得した質問テキスト－要約対を学習データとして抽出型および生成型の要約モデルを構築し，性能を比較する．分析より，抽出型要約手法では要約できない質問テキストの存在を確認した．また要約モデルの比較実験から，従来の要約課題で強いベースライン手法として知られるリード文よりも，先頭の疑問文を規則を用いて同定し抽出するリード疑問文ベースラインがより良い性能を示すこと，生成型手法であるエンコーダ・デコーダモデルに基づく要約手法が，ROUGE による自動評価，人間による評価において良い性能を示すことなどの知見を得た．また，入力中の出現単語を出力に含めるコピー機構を持つエンコーダ・デコーダモデルは，さらに良い性能を示した．

抄録全体を表示

PDF形式でダウンロード (374K)
木構造とグラフ構造を用いたオンライン議論における談話行為の分類

三浦康秀, 狩野竜示, 谷口元樹, 谷口友紀, 三沢翔太郎, 大熊智子

2019 年26 巻1 号 p. 59-81
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.59

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿ではオンライン議論における談話行為を分類するモデルを提案する．提案モデルでは談話行為を分類するために，ニューラルネットワークを用いて議論のパターンを学習する．談話行為の分類において議論のパターンを取り入れる重要性は既存の研究においても確認されているが，対象としている議論に併せたパターン素性を設計する必要があった．提案モデルではパターン素性を用いずに，木構造およびグラフ構造を学習する層を用いて議論のパターンを学習する．提案モデルを Reddit の談話行為を分類するタスクで評価したところ，従来手法と比較して Accuracy で 1.5%，F₁ 値で 2.2 ポイントの性能向上を確認した．また，提案モデル内の木構造学習層およびグラフ構造学習層間の相互作用を確認するため，提案手法の中間層を注意機構を通じて分析した．

抄録全体を表示

PDF形式でダウンロード (651K)
A* CCG Parsing with a Supertag and Dependency Factored Model

Masashi Yoshikawa, Hiroshi Noji, Yuji Matsumoto

2019 年26 巻1 号 p. 83-119
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.83

ジャーナルフリー

抄録を表示する抄録を非表示にする

Combinatory Categorial Grammar (CCG) is a strongly lexicalized grammatical formalism, in which the vast majority of parsing decisions involve assigning a supertag to indicate the correct syntactic role. We propose an A* parsing model for CCG that exploits this characteristics, by modeling the probability of a tree through the supertags and resolving the remaining ambiguities by its syntactic dependencies. The key of our method is that it predicts the probabilities of supertags and dependency heads independently using a strong unigram model defined over bi-directional LSTMs. The factorization allows precomputation of probabilities for all possible trees for a sentence, which, combined with an A* algorithm, enables very efficient decoding. The proposed model achieves the state-of-the-art results on English and Japanese CCG parsing. In addition, we conduct Recognizing Textual Entailment (RTE) experiments by integrating the proposed parser within logic-based RTE systems. We demonstrate that such integration leads to improved performance in English RTE experiments.

抄録全体を表示

PDF形式でダウンロード (799K)
タスク指向対話におけるユーザ要求の理解とその根拠の抽出

福永隼也, 西川仁, 徳永健伸, 横野光, 高橋哲朗

2019 年26 巻1 号 p. 121-154
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.121

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文は，データベース検索対話においてデータベースフィールドに直接言及しないが，データベースへのクエリを構成する上で有益な情報をユーザ発話から取り出す課題を提案する．このような情報を本論文では非明示的条件と呼ぶ．非明示的条件を解釈し，利用することによって，対話システムはより自然で効率的な対話を行うことができる．本論文では，非明示的条件の解釈を，ユーザ発話をデータベースフィールドに関連付け，同時にその根拠となる発話の断片を抽出する課題として定式化する．この課題を解くために，本論文では，サポートベクタマシン (SVM)，回帰型畳込みニューラルネットワーク (RCNN)，注意機構を用いた系列変換による 3 つの手法を実装した．不動産業者と顧客との対話を収集したコーパスを用いた評価の結果，注意機構を用いた系列変換による手法の性能が優れていた．

抄録全体を表示

PDF形式でダウンロード (1316K)
統計的機械翻訳のための Recursive Neural Network による事前並び替えと分析

瓦祐希, Chenhui Chu, 荒瀬由紀

2019 年26 巻1 号 p. 155-178
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.155

ジャーナルフリー

抄録を表示する抄録を非表示にする

統計的機械翻訳において，原言語と目的言語における語順の違いは翻訳精度に大きく影響することが知られている．この問題に対して，翻訳器に入力する前に原言語の語順を並び替える事前並び替え手法が提案されている．先行研究において最高性能を達成している Nakagawa の手法では事前並び替えの学習のために素性テンプレートの設計が必要である．本稿では，データから直接素性ベクトルを学習する Recursive Neural Network を用いた事前並び替え手法を提案する．英日・英仏・英中の言語対を用いた評価実験の結果，英日翻訳では素性テンプレートの設計を必要とせず，Nakagawa の手法と遜色ない精度を達成した．また実験結果の詳細な分析を行い，事前並び替えに影響を与える要因を分析した．そして近年の機械翻訳において主流となっているニューラル機械翻訳における事前並び替えの効果についても検証した．

抄録全体を表示

PDF形式でダウンロード (422K)
事象に対する網羅的な時間情報アノテーションとその分析

坂口智洋, 河原大輔, 黒橋禎夫

2019 年26 巻1 号 p. 179-206
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.179

ジャーナルフリー

抄録を表示する抄録を非表示にする

テキスト中には過去・現在・未来における様々な事象が記述されており，その内容を理解するためにはテキスト中の時間情報を正確に解釈する必要がある．これまで，事象情報と時間情報を関連付けたコーパスが構築されてきたが，これらは開始と終了が比較的明確な事象に着目したものであった．本研究では，網羅的かつ表現力豊かな時間情報アノテーション基準を導入し，京都大学テキストコーパス中の 113 文書に対するアノテーションとその分析を行った．同コーパスには既に述語項関係や共参照関係のアノテーションガなされており，本アノテーションと合わせてテキスト中の事象・エンティティ・時間を対象とした統合的な時間情報解析に活用することが可能となった．

抄録全体を表示

PDF形式でダウンロード (683K)
CKY に基づく畳み込みアテンション構造を用いたニューラル機械翻訳

渡邊大貴, 田村晃裕, 二宮崇, Teguh Bharata Adji

2019 年26 巻1 号 p. 207-230
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.207

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では，ニューラル機械翻訳 (NMT) の性能を改善するため，CKY アルゴリズムから着想を得た，畳み込みニューラルネットワーク (CNN) に基づく新しいアテンション構造を提案する．提案のアテンション構造は，CKY テーブルを模倣した CNN を使って，原言語文中の隣接する単語／句の全ての可能な組み合わせを表現する．提案のアテンション構造を組み込んだ NMT は，CKY テーブルの各セルに対応する CNN の隠れ状態に対するアテンションスコア（言い換えると，原言語文中の単語の組み合わせに対するアテンションスコア）に基づき目的言語の文を生成する．従来の文構造に基づく NMT は予め構文解析器で解析した文構造を活用するが，提案のアテンション構造を用いる NMT は，原言語文の構文解析を予め行うことなく，原言語の文に潜む構造に対するアライメントを考慮した翻訳を行うことができる．Asian Scientific Paper Excerpt Corpus (ASPEC) 英日翻訳タスクの評価実験により，提案のアテンション構造を用いることで，従来のアテンション構造付きのエンコーダデコーダモデルと比較して，1.43 ポイント BLEU スコアが上昇することを示す．さらに，FBIS コーパスにおける中英翻訳タスクにおいて，提案手法は，従来のアテンション構造付きのエンコーダデコーダモデルと同等かそれ以上の精度を達成できることを示す．

抄録全体を表示

PDF形式でダウンロード (772K)
ニューラルネットワークを利用した中国語の統合的な構文解析

栗田修平, 河原大輔, 黒橋禎夫

2019 年26 巻1 号 p. 231-258
発行日: 2019/03/15
公開日: 2019/06/15

DOIhttps://doi.org/10.5715/jnlp.26.231

ジャーナルフリー

抄録を表示する抄録を非表示にする

ニューラルネットワークに基づく係り受け解析モデルは，近年の深層学習を利用した言語処理研究の中でも大きな潮流となっている．しかしながら，こうした係り受け解析モデルを中国語などの言語に適用した際には，パイプラインモデルとして同時に用いられる単語分割や品詞タグ付けモデルの無視できない誤りによって性能が伸び悩む問題が存在する．これに対しては，単語分割・品詞タグ付けと係り受け解析の統合モデルを利用し，単語分割と構文木作成とを同時に行うことでその双方の改善が期待される．加えて，中国語においては個々の文字が固有の意味を持ち，構文解析では，文字やその組み合わせである文字列もしくは部分単語の情報が単語単位の情報と並んで本質的な役割を果たすことが期待される．本研究では，ニューラルネットワークに基づいて，単語分割と品詞タグ付け，もしくは単語分割と品詞タグ付け，係り受け解析の統合構文解析を行うモデルを提案する．また，同時に，文字列や部分単語の情報を捉えるために，文字や単語の分散表現に加えて，文字列の分散表現を利用する．

抄録全体を表示

PDF形式でダウンロード (684K)

J-STAGEへの登録はこちら（無料）