自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
26 巻, 1 号
選択された号の論文の10件中1~10を表示しています
巻頭言
論文
  • 浅原 正幸, 金山 博, 宮尾 祐介, 田中 貴秋, 大村 舞, 村脇 有吾, 松本 裕治
    2019 年 26 巻 1 号 p. 3-36
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    Universal Dependencies (UD) は,共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである. 2018 年 6 月現在,約 60 の言語で 100 以上のコーパスが開発・公開されており,多言語構文解析器の開発,言語横断的な構文モデルの学習,言語間の類型論的比較などさまざまな研究で利用されている. 本稿では UD の日本語適応について述べる.日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する.また,依存構造木では表現が難しい,並列構造の問題についても議論する.最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する.

  • 石垣 達也, 高村 大也, 奥村 学
    2019 年 26 巻 1 号 p. 37-58
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    インターネット上のコミュニティ QA サイトや学会での質疑応答の場面などにおいて,人々は多くの質問を投げかける.このような場面で用いられる質問には,核となる質問に加え補足的な情報をも付与され,要旨の把握が難しくなることもある.補足的な情報は正確な回答を得るには必要であるが,質問の要旨を素早く把握したいといった状況においては必ずしも必要でない.そこで本稿では,新たなテキスト要約課題として,複数文から構成される質問テキストを単一質問文に要約する“質問要約”を提案する.本研究ではまず,コミュニティ質問応答サイトに投稿される質問から質問テキスト-要約対を獲得し,必要な要約手法について抽出型および生成型の観点から分析を行う.また,獲得した質問テキスト-要約対を学習データとして抽出型および生成型の要約モデルを構築し,性能を比較する.分析より,抽出型要約手法では要約できない質問テキストの存在を確認した.また要約モデルの比較実験から,従来の要約課題で強いベースライン手法として知られるリード文よりも,先頭の疑問文を規則を用いて同定し抽出するリード疑問文ベースラインがより良い性能を示すこと,生成型手法であるエンコーダ・デコーダモデルに基づく要約手法が,ROUGE による自動評価,人間による評価において良い性能を示すことなどの知見を得た.また,入力中の出現単語を出力に含めるコピー機構を持つエンコーダ・デコーダモデルは,さらに良い性能を示した.

  • 三浦 康秀, 狩野 竜示, 谷口 元樹, 谷口 友紀, 三沢 翔太郎, 大熊 智子
    2019 年 26 巻 1 号 p. 59-81
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    本稿ではオンライン議論における談話行為を分類するモデルを提案する.提案モデルでは談話行為を分類するために,ニューラルネットワークを用いて議論のパターンを学習する.談話行為の分類において議論のパターンを取り入れる重要性は既存の研究においても確認されているが,対象としている議論に併せたパターン素性を設計する必要があった.提案モデルではパターン素性を用いずに,木構造およびグラフ構造を学習する層を用いて議論のパターンを学習する.提案モデルを Reddit の談話行為を分類するタスクで評価したところ,従来手法と比較して Accuracy で 1.5%,F1 値で 2.2 ポイントの性能向上を確認した.また,提案モデル内の木構造学習層およびグラフ構造学習層間の相互作用を確認するため,提案手法の中間層を注意機構を通じて分析した.

  • Masashi Yoshikawa, Hiroshi Noji, Yuji Matsumoto
    2019 年 26 巻 1 号 p. 83-119
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    Combinatory Categorial Grammar (CCG) is a strongly lexicalized grammatical formalism, in which the vast majority of parsing decisions involve assigning a supertag to indicate the correct syntactic role. We propose an A* parsing model for CCG that exploits this characteristics, by modeling the probability of a tree through the supertags and resolving the remaining ambiguities by its syntactic dependencies. The key of our method is that it predicts the probabilities of supertags and dependency heads independently using a strong unigram model defined over bi-directional LSTMs. The factorization allows precomputation of probabilities for all possible trees for a sentence, which, combined with an A* algorithm, enables very efficient decoding. The proposed model achieves the state-of-the-art results on English and Japanese CCG parsing. In addition, we conduct Recognizing Textual Entailment (RTE) experiments by integrating the proposed parser within logic-based RTE systems. We demonstrate that such integration leads to improved performance in English RTE experiments.

  • 福永 隼也, 西川 仁, 徳永 健伸, 横野 光, 高橋 哲朗
    2019 年 26 巻 1 号 p. 121-154
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    本論文は,データベース検索対話においてデータベースフィールドに直接言及しないが,データベースへのクエリを構成する上で有益な情報をユーザ発話から取り出す課題を提案する.このような情報を本論文では非明示的条件と呼ぶ.非明示的条件を解釈し,利用することによって,対話システムはより自然で効率的な対話を行うことができる.本論文では,非明示的条件の解釈を,ユーザ発話をデータベースフィールドに関連付け,同時にその根拠となる発話の断片を抽出する課題として定式化する.この課題を解くために,本論文では,サポートベクタマシン (SVM),回帰型畳込みニューラルネットワーク (RCNN),注意機構を用いた系列変換による 3 つの手法を実装した.不動産業者と顧客との対話を収集したコーパスを用いた評価の結果,注意機構を用いた系列変換による手法の性能が優れていた.

  • 瓦 祐希, Chenhui Chu, 荒瀬 由紀
    2019 年 26 巻 1 号 p. 155-178
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    統計的機械翻訳において,原言語と目的言語における語順の違いは翻訳精度に大きく影響することが知られている.この問題に対して,翻訳器に入力する前に原言語の語順を並び替える事前並び替え手法が提案されている.先行研究において最高性能を達成している Nakagawa の手法では事前並び替えの学習のために素性テンプレートの設計が必要である.本稿では,データから直接素性ベクトルを学習する Recursive Neural Network を用いた事前並び替え手法を提案する.英日・英仏・英中の言語対を用いた評価実験の結果,英日翻訳では素性テンプレートの設計を必要とせず,Nakagawa の手法と遜色ない精度を達成した.また実験結果の詳細な分析を行い,事前並び替えに影響を与える要因を分析した.そして近年の機械翻訳において主流となっているニューラル機械翻訳における事前並び替えの効果についても検証した.

  • 坂口 智洋, 河原 大輔, 黒橋 禎夫
    2019 年 26 巻 1 号 p. 179-206
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    テキスト中には過去・現在・未来における様々な事象が記述されており,その内容を理解するためにはテキスト中の時間情報を正確に解釈する必要がある.これまで,事象情報と時間情報を関連付けたコーパスが構築されてきたが,これらは開始と終了が比較的明確な事象に着目したものであった.本研究では,網羅的かつ表現力豊かな時間情報アノテーション基準を導入し,京都大学テキストコーパス中の 113 文書に対するアノテーションとその分析を行った.同コーパスには既に述語項関係や共参照関係のアノテーションガなされており,本アノテーションと合わせてテキスト中の事象・エンティティ・時間を対象とした統合的な時間情報解析に活用することが可能となった.

  • 渡邊 大貴, 田村 晃裕, 二宮 崇, Teguh Bharata Adji
    2019 年 26 巻 1 号 p. 207-230
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    本論文では,ニューラル機械翻訳 (NMT) の性能を改善するため,CKY アルゴリズムから着想を得た,畳み込みニューラルネットワーク (CNN) に基づく新しいアテンション構造を提案する.提案のアテンション構造は,CKY テーブルを模倣した CNN を使って,原言語文中の隣接する単語/句の全ての可能な組み合わせを表現する.提案のアテンション構造を組み込んだ NMT は,CKY テーブルの各セルに対応する CNN の隠れ状態に対するアテンションスコア(言い換えると,原言語文中の単語の組み合わせに対するアテンションスコア)に基づき目的言語の文を生成する.従来の文構造に基づく NMT は予め構文解析器で解析した文構造を活用するが,提案のアテンション構造を用いる NMT は,原言語文の構文解析を予め行うことなく,原言語の文に潜む構造に対するアライメントを考慮した翻訳を行うことができる.Asian Scientific Paper Excerpt Corpus (ASPEC) 英日翻訳タスクの評価実験により,提案のアテンション構造を用いることで,従来のアテンション構造付きのエンコーダデコーダモデルと比較して,1.43 ポイント BLEU スコアが上昇することを示す.さらに,FBIS コーパスにおける中英翻訳タスクにおいて,提案手法は,従来のアテンション構造付きのエンコーダデコーダモデルと同等かそれ以上の精度を達成できることを示す.

  • 栗田 修平, 河原 大輔, 黒橋 禎夫
    2019 年 26 巻 1 号 p. 231-258
    発行日: 2019/03/15
    公開日: 2019/06/15
    ジャーナル フリー

    ニューラルネットワークに基づく係り受け解析モデルは,近年の深層学習を利用した言語処理研究の中でも大きな潮流となっている.しかしながら,こうした係り受け解析モデルを中国語などの言語に適用した際には,パイプラインモデルとして同時に用いられる単語分割や品詞タグ付けモデルの無視できない誤りによって性能が伸び悩む問題が存在する.これに対しては,単語分割・品詞タグ付けと係り受け解析の統合モデルを利用し,単語分割と構文木作成とを同時に行うことでその双方の改善が期待される.加えて,中国語においては個々の文字が固有の意味を持ち,構文解析では,文字やその組み合わせである文字列もしくは部分単語の情報が単語単位の情報と並んで本質的な役割を果たすことが期待される.本研究では,ニューラルネットワークに基づいて,単語分割と品詞タグ付け,もしくは単語分割と品詞タグ付け,係り受け解析の統合構文解析を行うモデルを提案する.また,同時に,文字列や部分単語の情報を捉えるために,文字や単語の分散表現に加えて,文字列の分散表現を利用する.

feedback
Top