自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
28 巻, 2 号
選択された号の論文の27件中1~27を表示しています
巻頭言
一般論文
  • Hidetaka Kamigaito, Katsuhiko Hayashi, Tsutomu Hirao, Masaaki Nagata, ...
    2021 年 28 巻 2 号 p. 321-349
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    Recently, as a replacement of syntactic tree-based approaches, such as tree-trimming, Long Short-Term Memory (LSTM)-based methods have been commonly used to compress sentences because LSTM can generate fluent compressed sentences. However, the performance of these methods degrades significantly while compressing long sentences because they do not explicitly handle long-distance dependencies between the words. To solve this problem, we proposed a higher-order syntactic attention network (HiSAN) that can handle higher-order dependency features as an attention distribution on LSTM hidden states. Furthermore, to avoid the influence of incorrect parse results, we trained HiSAN by maximizing the probability of a correct output together with the attention distribution. Experiments on the Google sentence compression dataset show that our method improved the performance from baselines in terms of F1 as well as ROUGE-1, -2, and -L scores. In subjective evaluations, HiSAN outperformed baseline methods in both readability and informativeness. Besides, in this study, we additionally investigated the performance of HiSAN after training it without any syntactic dependency tree information. The results of our investigation show that HiSAN can compress sentences without relying on any syntactic dependency information while maintaining accurate compression rates, and also shows the effectiveness of syntactic dependency information in compressing long sentences with higher F1 scores.

  • 大内 智仁, 田伏 正佳
    2021 年 28 巻 2 号 p. 350-379
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    近年インターネット上の情報量は指数関数的に増加している.そのため,自動要約システム技術は必要不可欠なものとなってくると思われる.自動要約システムを構築するには要約コーパスが必要となる.しかし,多量の要約コーパスを作成するには人手が必要となりコストがかかってしまう.そこで,本研究では自動要約システムにおけるデータ拡張として,記事に対して,最も重要度の低い文を除去する手法を提案する.本研究では,Pointer-Generator モデルにおいて提案手法の効果を検証した.また,本研究の比較対象として,文書分類において用いられたデータ拡張手法である EDA (Easy Data Augmentation Techniques) や,Luhn,LexRank を用いた手法で実験を行った.Pointer-Generator モデルで用いたコーパスは CNN/Daily Mail dataset であり,トータルで,287,226 記事存在する.本研究では, 287,226 記事の他に,57,000 記事,28,000 記事において比較実験した.結果は,EDA や Luhn,LexRank を用いた手法では拡張せずに元の記事だけで学習する手法(拡張なし手法)よりも悪くなることがあったが,提案手法は全ての記事数において拡張なし手法よりも良い結果となった.

  • Matīss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa
    2021 年 28 巻 2 号 p. 380-403
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    Most machine translation (MT) research has focused on sentences as translation units (sentence-level MT), and has achieved acceptable translation quality for sentences where cross-sentential context is not required in mainly high-resourced languages. Recently, many researchers have worked on MT models that can consider a cross-sentential context. These models are often called context-aware MT or document-level MT models. Document-level MT is difficult to 1) train with a small amount of document-level data; and 2) evaluate, as the main methods and datasets focus on sentence-level evaluation. To address the first issue, we present a Japanese–English conversation corpus in which the cross-sentential context is available. As for the second issue, we manually identify the main areas where sentence-level MT fails to produce adequate translations in the lack of context. We then create an evaluation set in which these phenomena are annotated to alleviate the automatic evaluation of document-level systems. We train MT models using our corpus to demonstrate how the use of context leads to improvements.

  • 吉村 綾馬, 金子 正弘, 梶原 智之, 小町 守
    2021 年 28 巻 2 号 p. 404-427
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    信頼できる文法誤り訂正の自動評価手法の構築は,文法誤り訂正の研究および開発の発展に有用である.可能な参照文を網羅することが難しいため,先行研究では参照文を用いない自動評価手法が提案されてきた.そのうちの一つは,文法性・流暢性・意味保存性を評価する 3 つの評価モデルを用いることで,参照文を用いる手法よりも人手評価との高い相関を達成した.しかし,各項目の評価モデルは人手評価には最適化されておらず,改善の余地が残されていた.本研究では,より適切な評価を行える自動評価手法の構築を目的として,各項目の評価モデルを事前学習された文符号化器を用いて人手評価に対して最適化する手法を提案する.また,最適化に理想的である,訂正システムの出力文に対して人手評価が付与されたデータセットの作成を行う.実験の結果,項目ごとの評価モデルおよびそれらを組み合わせた手法の両方で,従来手法と比べて人手評価との相関が向上し,事前学習された文符号化器を用いることおよび訂正文の人手評価に最適化することの両方が貢献していることがわかった.分析の結果,提案手法は従来手法に比べて多くのエラータイプの訂正を正しく評価できていることがわかった.

  • 甫立 健悟, 金子 正弘, 勝又 智, 小町 守
    2021 年 28 巻 2 号 p. 428-449
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    本稿では,文法誤り訂正における多様な訂正文の生成手法を提案する.文法的に誤りを含んだ文に対して訂正を行う際,訂正方法は複数存在することがある.しかし,既存の文法誤り訂正モデルは多様な訂正文の生成を考慮していない.また,機械翻訳タスクなどにおいて用いられている既存の多様な出力を得る手法は,文中の全トークンに対して多様性を持たせる手法となっている.そのため,既存の手法を文法誤り訂正に適応した場合,訂正が必要な箇所を考慮せず文全体を強制的に書き換えるため,文法的に誤りを含んだ文の生成を行うか,もしくは,文法的誤りの発生を防ぐために制約を弱め,結果的に多様でない文を生成する恐れがある.そこで我々は,文全体を多様化するのではなく,訂正が必要な箇所を考慮して多様化する手法として,モデルの訓練データに訂正度の情報を付与することで出力の訂正度を制御する手法と,さらに出力を多様化するための誤り箇所を考慮したビームサーチ手法を提案する.実験の結果,既存手法では文法誤り訂正において適切に多様化できないことを明らかにし,一方で,提案手法によりモデルの訂正度が制御可能となり,既存手法よりも文法誤り訂正に適した多様な出力を得ることが可能となった.

  • 藤井 諒, 三田 雅人, 阿部 香央莉, 塙 一晃, 森下 睦, 鈴木 潤, 乾 健太郎
    2021 年 28 巻 2 号 p. 450-478
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.

  • 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観
    2021 年 28 巻 2 号 p. 479-507
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    これまでの自然言語処理において単語分割は,後段タスクに依存しない前処理として行われてきた.そのため,単語分割済みのデータを用いて後段タスクを学習し,後段モデル性能を評価するまで単語分割が適切であったかはわからない.この問題を解決するため本稿は後段タスクに応じて適切な単語分割を行うための新たな手法を提案する.本稿で提案する手法 (OpTok = Optimizing Tokenization) は後段タスクの学習損失値に基づいて,適切な単語分割の確率が高くなるように更新される.OpTok は文書分類のように文ベクトルを計算に用いるタスクに使用することが可能であり,実験結果より提案手法は感情分析や Textual Entailment などの文書分類の性能向上に寄与し,中国語,日本語,英語の三言語に適用可能であることを確認した.さらに,近年注目を集めている BERT に対して提案手法を適用することで,さらなる性能の向上が得られることを確認した.

  • 吉仲 真人, 梶原 智之, 荒瀬 由紀
    2021 年 28 巻 2 号 p. 508-531
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    本研究では,単語分散表現に基づく単一言語内フレーズアラインメント手法を提案する.単一言語内フレーズアラインメントは,同一言語の文対に含まれる言い換えフレーズを対応付けるタスクである.既存手法は大規模な辞書や高品質な構文解析器を使用しており,依存する言語資源の観点から英語以外の言語への拡張が難しい.提案手法は学習済みの単語分散表現のみを用いるため,多くの言語において大規模に利用可能な単言語のコーパスのみに依存する.提案手法では,はじめに単語分散表現に基づいて単語アラインメントを獲得し,次に対訳フレーズアラインメントのヒューリスティクスを用いてフレーズアラインメントの候補を得る.最後に,単語分散表現から構成したフレーズ表現を用いて計算したアラインメントスコアに基づいて,適切なフレーズ対の組み合わせをラティス構造を用いて探索する.英語での評価実験により,既存のフレーズアラインメント手法を上回るF値を達成し,性能の改善を確認した.また,日本語のデータセットを構築して行った分析では,英語以外の言語へ容易に適用できることを確認した.

  • 狩野 竜示, 谷口 友紀, 大熊 智子
    2021 年 28 巻 2 号 p. 532-553
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    本研究では,返信を伴う会話形式のテキストを対象とした,教師なし抽出型ニューラル要約モデル Implicit Quote Extractor (IQE) を提案する.引用は投稿やメールに返信する際,言及している箇所を強調するために使われる.高頻度に引用される箇所は重要であるとの仮説の元,我々は引用を要約として抽出するモデルを提案する.ほとんどの返信は明示的な引用を含まない.そのため,引用を直接要約モデルの教師データとして使うことは難しい.しかしながら,明示されていなかったとしても,返信は返信元の文章のある箇所に必ず言及している.返信が投稿のどの箇所に言及しているかは,返信内容から推測できるため,明示的な引用を用いずに,返信のみから本来引用されるべき箇所を推定することが可能である.この箇所を暗黙的引用 (Implicit quote) と呼ぶ.提案モデルであるIQEは,返信を用いて暗黙的引用を推定する機構を備える.IQE の学習タスクは,あるテキスト(返信候補)が,ある投稿に対する実際の返信になっているかを判定することである.IQE は,数文を投稿から抽出し,それを返信候補の真偽判定の特徴量とする.IQE は返信候補の真偽判定の性能を向上させるように文抽出のパラメータを学習するため,返信が言及しやすい文を要約として抽出するようになる.我々は本モデルを 2 つのメールデータセットと 1 つのソーシャルメディアデータセットで評価し,本モデルが要約タスクに有用であることを示す.更に,提案モデルが引用を抽出できる点,また,提案モデルが従来モデルが抽出できない重要文を抽出可能であるという点を実験によって検証し,それを支持する結果を得た.

  • 西原 哲郎, 田村 晃裕, 二宮 崇, 表 悠太郎, 中山 英樹
    2021 年 28 巻 2 号 p. 554-572
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    本稿では,マルチモーダルニューラル機械翻訳 (MNMT) のための教師付き視覚的注意機構を提案する.提案手法は,人手で付与された画像内の領域と単語との対応関係を視覚的注意の教師データとして与え,これらの対応関係を制約にして直接視覚的注意機構の学習を行う.教師なしで学習される従来の視覚的注意機構に比べてより正確に単語と画像領域との関係性を捉えることが期待される.実験では Multi30k データセットを用いた英独・独英翻訳,Flickr30k Entities JP データセットを用いた英日・日英翻訳を行い,提案する教師付き視覚的注意機構によって Transformer ベースの MNMT モデルの性能が改善することが確認できた.また,教師付きの言語間注意機構と組み合わせることにより,さらに性能が改善され,最大で BLEU スコアが 1.61 ポイント,METEOR スコアが 1.7 ポイント向上することが確認できた.

  • 小林 颯介, 横井 祥, 鈴木 潤, 乾 健太郎
    2021 年 28 巻 2 号 p. 573-597
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    機械学習モデルの挙動の解釈において,各訓練事例がもたらす影響を理解することは重要である.単純にはデータセットから対象の訓練事例を除いて再訓練してモデルの変化を解析することもできるが,必要な計算量が非常に大きくなってしまい,特に膨大なパラメータのニューラルネットワークモデルへの適用が困難であった.本論文では,ニューラルネットワークモデルへの各訓練事例の影響の推定手法として,既存手法に比べて非常に効率的な方法を提案する.提案手法では,各事例の学習時に dropout を用いて,事例ごとに固有のサブネットワークのパラメータを更新せずに訓練を進めることで,訓練終了後には各訓練事例の影響を受けていないサブネットワークを自由に抽出し,それを影響値の推定に活かすことができる.実験では,提案手法を,文書分類と画像物体認識において,BERT および VGGNet に適用し訓練事例への紐付けを行うことで,解釈性の高い形でモデルの予測を解析できることを示した.また,サブネットワークの学習曲線の解析やデータフィルタリングの実験を通して,提案手法が事例間の関係性を適切に捉えていることを定量的に示した.

  • 曽 傑, 中野 有紀子
    2021 年 28 巻 2 号 p. 598-631
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    会話を通して料理に関するユーザの嗜好を獲得する対話システムの実現に向け,本研究ではグラフ構造を持つ大規模知識 Freebase に基づいて,話題を選択し,質問を生成する手法を提案する.知識グラフのエンティティ間の関係を話題とみなし,話題どうしの関連の強さを Wikipedia に基づき学習し,関連話題を選択するとともに,質問生成時に欠損しているエンティティを知識グラフ埋め込みにより予測・補完する.これらにより,話題を幅広く展開しながらユーザの嗜好を質問することが可能になる.提案手法を実装した質問生成機構を組み込んだインタビュー対話システムを作成し,クラウドソーシングにより被験者を募りユーザスタディを行った.その結果,1 つの料理から話題を展開した対話を長く継続するという効果を示すとともに,提案手法により生成された質問の質を調査した.さらに,対話破綻が一定以下に抑えられた場合に,被験者の主観評価において,話題の多様性や文脈の継続性が印象づけられることを示した.

  • 出口 祥之, 内山 将夫, 田村 晃裕, 二宮 崇, 隅田 英一郎
    2021 年 28 巻 2 号 p. 632-650
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    本論文ではニューラル機械翻訳のための新たなサブワード分割法を提案する.従来法では対訳関係を考慮せずに各言語ごとにサブワード分割を学習するため,機械翻訳タスクに適したサブワード分割になるとは限らない.本研究は対訳コーパスを用い,原言語文と目的言語文のサブワードトークン数の差がより小さくなるサブワード分割法を提案する.提案法は対訳情報を用いるため,より機械翻訳タスクに適したサブワードが得られると考えられる.従来法と提案法を用いて翻訳性能を比較したところ,WAT ASPEC 英日・日英・英中・中英翻訳タスクと WMT14 英独・独英翻訳タスクにおいて,Transformer NMT モデルの性能が最大 0.81 BLEU ポイント改善した.

  • Yin Jou Huang, Sadao Kurohashi
    2021 年 28 巻 2 号 p. 651-676
    発行日: 2021年
    公開日: 2021/06/15
    ジャーナル フリー

    Modeling the relations between text spans in a document is a crucial yet challenging problem for extractive summarization. Various kinds of relations exist among text spans of different granularity, such as discourse relations between elementary discourse units and coreference relations between phrase mentions. In this paper, we utilize heterogeneous graphs that contain multiple edge/node types to model the input document as well as the various relations among text spans in it. Also, we propose a heterogeneous graph based model for extractive summarization that considers the heterogeneity of the document graph. Experimental results on a benchmark summarization dataset verify the effectiveness of our proposed method.

学会記事
後付記事
feedback
Top