自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
29 巻, 1 号
選択された号の論文の19件中1~19を表示しています
巻頭言(査読無)
一般論文(査読有)
  • Kosuke Takahashi, Katsuhito Sudoh, Satoshi Nakamura
    2022 年29 巻1 号 p. 3-22
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    As the performance of machine translation has improved, the need for a human-like automatic evaluation metric has been increasing. The use of multiple reference translations against a system translation (a hypothesis) has been adopted as a strategy to improve the performance of such evaluation metrics. However, preparing multiple references is highly expensive and impractical. In this study, we propose an automatic evaluation method for machine translation that uses source sentences as additional pseudo-references. The proposed method evaluates a translation hypothesis via regression to assign a real-valued score. The model takes the paired source, reference, and hypothesis sentences together as input. A pre-trained large-scale cross-lingual language model encodes the input to sentence vectors, with which the model predicts a human evaluation score. The results of experiments show that our proposed method exhibited stably higher correlation with human judgements than baseline methods that solely depend on hypothesis and reference sentences, especially when the hypotheses were very high- or low-quality translations.

  • Yiran Wang, Hiroyuki Shindo, Yuji Matsumoto, Taro Watanabe
    2022 年29 巻1 号 p. 23-52
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    This paper presents a novel method for nested named entity recognition. As a layered method, our method extends the prior second-best path recognition method by explicitly excluding the influence of the best path. Our method maintains a set of hidden states at each time step and selectively leverages them to build a different potential function for recognition at each level. In addition, we demonstrate that recognizing innermost entities first results in better performance than the conventional outermost entities first scheme. We provide extensive experimental results on ACE2004, ACE2005, GENIA, and NNE datasets to show the effectiveness and efficiency of our proposed method.

  • 佐藤 志貴, 赤間 怜奈, 大内 啓樹, 鈴木 潤, 乾 健太郎
    2022 年29 巻1 号 p. 53-83
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    雑談対話応答生成システムの日々の改良が望ましい方向に効いているか継続的に評価するといった用途として,システムを低コストで評価できる自動評価の枠組みの確立が求められている.しかし,BLEU など,応答生成の自動評価に広く用いられている既存の指標は人間との相関が低いことが報告されている.これは,一つの対話履歴に対し適切な応答が複数存在するという対話の性質に起因する.この性質の影響を受けにくいシステムの評価方法の一つに対話応答選択が考えられる.対話応答選択は,対話履歴に対し適切な応答を応答候補から選ぶタスクである.このタスクではシステムの応答が候補内の発話に限られるため,前述した対話の性質の影響を回避した評価が可能である.一般に対話応答選択では,対話履歴に対する本来の応答(正例)に加え,誤り候補(負例)を無関係な対話データから無作為抽出し応答候補を構成する.しかし,この方法では,正例とかけ離れすぎていて応答として不適切と容易に判別できる発話や,応答として誤りとはいえない発話が負例として候補に混入し,評価の有効性が低下する可能性がある.本論文では,負例を厳選することで不適切な負例の混入を抑制した対話応答選択テストセットの構築方法を提案する.構築したテストセットを用いた対話応答選択によるシステム評価が,BLEU など既存の広く用いられている自動評価指標と比べ人手評価と強く相関することを報告する.

  • 高山 隼矢, 梶原 智之, 荒瀬 由紀
    2022 年29 巻1 号 p. 84-111
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈できる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の英語対話コーパスである MultiWoZ を拡張し,71,498 件の間接的応答と直接的応答の対からなる対話履歴付きパラレルコーパスを構築した.また,間接的な応答を扱う能力を評価するための 3 つのベンチマークタスクを設計し,最新の事前学習済みモデルの性能を調査した.さらに,ユーザーの間接的な発話を事前に直接的な発話に変換することで対話応答生成の性能が向上することを確認した.

  • 平岡 達也, 高瀬 翔, 内海  慶, 欅 惇志, 岡崎 直観
    2022 年29 巻1 号 p. 112-143
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    本稿では,後段モデルと単語分割器を同時に学習することで,後段モデルに適切な単語分割を獲得する新たな手法を提案する.提案手法では,後段モデルを学習する際に得られる教師信号との損失値を用いて単語分割器の学習を行う.これにより,提案手法は損失値が計算できるあらゆる後段モデルに対して制限なく使用することができ,さまざまな自然言語処理のタスクで単語分割の最適化を行うことができる.さらに,提案手法はすでに学習済みの後段モデルに対しても,後処理として単語分割を最適化することで,後段モデルの処理性能を底上げすることができる.そのため,提案手法は自然言語処理のさまざまな場面で利用することが可能である.実験を通して,提案手法が 3 言語の文書分類タスクで性能の向上に貢献することを確認した.また,8 言語対での機械翻訳タスクにおいても,提案手法が性能向上に寄与することを確認した.

  • 狩野 竜示, 谷口 友紀, 大熊 智子
    2022 年29 巻1 号 p. 144-165
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    教師あり要約モデルの研究においては,タイトルを本文の要約とみなし学習データとするのが一般的であるが,これらはノイズ,すなわち不適切な本文-要約ペアを多く含む.本研究では,カリキュラムラーニングを用いてこうしたノイズを含むデータから効率的に要約モデルを学習させる手法を検討する.カリキュラムラーニングは学習データを難易度やノイズの量などを表す指標に従ってソートし,段階的な学習を行うことで性能を向上させる手法であり,ノイズを含むデータの学習にも有効である.本研究の目的の 1 つは,これまで検証されてこなかったカリキュラムラーニングの要約タスクへの有効性を検証することである.翻訳タスクの先行研究では,ノイズの多いコーパスと少ないコーパスから学習されたモデルでノイズ定量化を行ったが,要約分野にそうしたコーパスは存在しない.本研究のもう 1 つの目的は,単一コーパスからノイズを定量化してカリキュラムラーニングに適用する手法を提案することである.提案モデルである Appropriateness Estimator は,本文-要約の正しいペアと,ランダムに組み合わせたペアを分類するタスクによって学習され,本文-要約ペアの適切性を計算する.本研究では3つの要約モデルで実験を行い.カリキュラムラーニング及び提案手法が要約モデルの性能を向上させることを示す.

  • Abdurrisyad Fikri, Hiep V. Le, Takashi Miyazaki, Manabu Okumura, Nobuy ...
    2022 年29 巻1 号 p. 166-186
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    To build good conversation agents, an accurate conversation context is assumed to be required. We argue that a conversation scene that includes speakers can provide more information on the context because using images as conversation contexts has proven effective. We constructed a visual conversation scene dataset (VCSD) that provided scenic images corresponding to conversations. This dataset provides a combination of (1) conversation scene image (third-person view), (2) the corresponding first utterance and its response, and (3) the corresponding speaker, respondent, and topic object. In our experiments on the response-selection task, we first examined BERT (text only) as a baseline. Although BERT managed to perform well in general conversations, where a response continued from the previous utterance, it failed to deal with cases where visual information was necessary to understand the context. Our error analysis found that conversations requiring visual contexts can be categorized into three types: visual question-answering, image-referring response, and scene understanding. To optimize the usage of conversation scene images and their focused parts, that is, speaker, respondent, and topic object, we proposed a model that received texts and multiple image features as inputs. Our model can capture this information and achieve 91% accuracy.

  • Youmi Ma, Tatsuya Hiraoka, Naoaki Okazaki
    2022 年29 巻1 号 p. 187-223
    発行日: 2022年
    公開日: 2022/03/15
    ジャーナル フリー

    In this study, we propose a method designed to extract named entities and relations from unstructured text based on table representations. To extract named entities, the proposed method computes representations for entity mentions and long-range dependencies using contextualized representations without hand-crafted features or complex neural network architectures. To extract relations, it applies a tensor dot product to predict all relation labels simultaneously without considering dependencies among relation labels. These advancements significantly simplify the proposed model and the associated algorithm for the extraction of named entities and relations. Despite its simplicity, the experimental results demonstrate that the proposed approach outperformed the state of the-art methods on multiple datasets. Compared with existing table-filling approaches, the proposed method achieved high performance solely by independently predicting the relation labels. In addition, we found that incorporating dependencies of relation labels into the system obtained little performance gain, indicating the effectiveness and sufficiency of the tensor dot-product mechanism for relation extraction in the proposed architecture. Experimental analyses were also performed to explore the benefits of joint training with named entity recognition in relation extraction in our design. We concluded that joint training with named entity recognition assists relation extraction to improve the span-level representation of entities.

学会記事(査読無)
後付記事(査読無)
feedback
Top