自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
25 巻, 5 号
選択された号の論文の7件中1~7を表示しています
巻頭言
論文
  • Hao Wang, Yves Lepage
    2018 年 25 巻 5 号 p. 487-509
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    Preordering has proven useful in improving the translation quality of statistical machine translation (SMT), especially for language pairs with different syntax. The top-down bracketing transduction grammar (BTG)-based preordering method (Nakagawa 2015) has achieved a state-of-the-art performance since it relies on aligned parallel text only and deos not require any linguistic annotations. Although this online learning algorithm adopted is efficient and effective, it is very susceptible to alignment errors. In a production environment, in particular, such a preorderer is commonly trained on noisy word alignments obtained using an automatic word aligner, resulting in a worse performance compared to those trained on manually annotated datasets. In order to achieve better preordering using automatically aligned datasets, this paper seeks to improve the top-down BTG-based preordering method using various parameter mixing techniques to increase the accuracy of the preorderer and speed up training via parallelisation. The parameters mixing methods and the original online training method (Nakagawa 2015) were empirically compared, and the experimental results show that such parallel parameter averaging methods can dramatically reduce the training time and improve the quality of preordering.

  • 伊部 早紀, 松田 源立, 山口 和紀
    2018 年 25 巻 5 号 p. 511-525
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    ニューラル機械翻訳では,従来の統計的機械翻訳に比べ文法的に流暢な文が生成されるが,出力結果に未知語が含まれることがしばしば指摘される.この問題に対処する方法としては,学習コーパス中の低頻度語を分割したり,未知語に位置情報を付け加えるなどの方法があるが,どれも日英翻訳では効果が低い.そこで本論文では,アテンションから構成した単語アライメント表を用いて出力文中の未知語と対応する入力文中の単語を見つけ,その単語を翻訳した単語で未知語を置き換えることで未知語をなくす手法を提案する.本論文の有効性を示すために ASPEC, NTCIR-10 の 2 種類のコーパスを用いて実験を行った結果,本論文で提案する単語アライメント表の構成法を用いると,未知語を全く発生させず,かつ,BLEU 値を向上させることができた.

  • 浅原 正幸
    2018 年 25 巻 5 号 p. 527-554
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    日本語は冠詞のない言語である.日本語名詞句の情報の状態は,テキストに陽に表出せず,限られた文脈情報や世界知識のみに基づく手法では推定することは難しい.情報の状態は情報の新旧や定・不定などの観点で分析される.しかしながら,日本語の言語処理においては,この概念が適切に扱われていない.そこで,本稿では,まず,日本語名詞句の情報状態について解説する.次に,読み時間を手がかりとして,名詞句の情報の状態(新旧・定不定)を推定することを検討する.具体的には日本語名詞句の情報の状態が文の読み時間にどう影響するかについて調査する.結果,名詞句の読み手の側の情報状態(情報)が読み時間に対して影響を与えることを明らかにしたので報告する.

  • 浅野 広樹, 水本 智也, 乾 健太郎
    2018 年 25 巻 5 号 p. 555-576
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    文法誤り訂正の研究開発では,訂正システムの性能を自動評価することは重要であると考えられている.従来の自動評価手法では参照文が必要であるが,参照文は人手で作成しなければならないため,コストが高く網羅性に限界がある.この問題に対処するために,参照文を用いず,文法性の観点によって訂正を評価する参照無し手法が提案されたが,従来の参照有り手法の性能を上回ることはできなかった.そこで本研究では,先行研究で提案された手法を拡張し,参照無し手法の可能性について調査する.具体的には,文法性に加えて流暢性と意味保存性を組み合わせた参照無し手法が,従来の参照有り手法よりも人手評価スコアを正確に予測できることを実験的に示す.また,参照無し手法は文単位でも適切な評価が可能であることと,文法誤り訂正システムに応用可能であることを示す.

  • 後藤 功雄, 田中 英輝
    2018 年 25 巻 5 号 p. 577-597
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.

  • Akiva Miura, Graham Neubig, Katsuhito Sudoh, Satoshi Nakamura
    2018 年 25 巻 5 号 p. 599-629
    発行日: 2018/12/15
    公開日: 2019/03/15
    ジャーナル フリー

    The pivot translation is useful method for translating between languages that contain little or no parallel data by utilizing equivalents in an intermediate language such as English. Commonly, phrase-based or tree-based pivot translation methods merge source–pivot and pivot–target translation models into a source–target model. This tactic is known as triangulation. However, the combination is based on the surface forms of constituent words, and it often produces incorrect source–target phrase pairs because of interlingual differences and semantic ambiguities in the pivot language. The translation accuracy is thus degraded. This paper proposes a triangulation approach that utilizes syntactic subtrees in the pivot language to avoid incorrect phrase combinations by distinguishing pivot language words by their syntactic roles. The results of the experiments conducted on the United Nations Parallel Corpus demonstrate that the proposed method is superior to other pivot translation approaches in all tested combinations of languages.

feedback
Top