自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
21 巻, 3 号
選択された号の論文の8件中1~8を表示しています
巻頭言
論文
  • 平尾 努, 磯崎 秀樹, 須藤 克仁, Duh Kevin, 塚田 元, 永田 昌明
    2014 年 21 巻 3 号 p. 421-444
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    効率的に機械翻訳システムを開発していくためには,質の高い自動評価法が必要となる.これまでに様々な自動評価法が提案されてきたが,参照翻訳とシステム翻訳との間で一致する N グラムの割合に基づきスコアを決定する BLEU や最大共通部分単語列の割合に基づきスコアを決定する ROUGE-L などがよく用いられてきた.しかし,こうした方法にはいつくかの問題がある.ルールベース翻訳 (RBMT) の訳を人間は高く評価するが,従来の自動評価法は低く評価する.これは,RBMT が参照翻訳と違う訳語を使うことが多いのが原因である.これら従来の自動評価法は単語が一致しないと大きくスコアが下がるが,人間はそうとは限らない.一方,統計的機械翻訳 (SMT) で英日,日英翻訳を行うと,「A なので B」と訳すべきところを「B なので A」と訳されがちである.この訳には低いスコアが与えられるべきであるが,N グラムの一致割合に着目するとあまりスコアは下がらない.こうした問題を解決するため,本稿では,訳語の違いに寛大で,かつ,大局的な語順を考慮した自動評価法を提案する.大局的な語順は順位相関係数で測定し,訳語の違いは,単語適合率で測定するがパラメタでその重みを調整できるようにする.NTCIR-7,NTCIR-9 の特許翻訳タスクにおける英日,日英翻訳のデータを用いてメタ評価を行ったところ,提案手法が従来の自動評価法よりも優れていることを確認した.
  • 沈 睿, 菊池 英明
    2014 年 21 巻 3 号 p. 445-464
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    近年,計算機技術の進歩に伴って大規模言語データの蓄積と処理が容易となり,音声言語コーパスの構築と実用化の研究が盛んに行われている.我々は,speaking style に関心を持つ利用者に音声言語コーパスを探しやすくさせるために,音声言語コーパスの speaking style の自動推定を目指している.本研究では,1993 年に Eskenazi が提唱した speaking style の 3 尺度を導入し,従来の文体・ジャンルの判別や著者推定などの自然言語処理の分野で用いられた言語の形態論的特徴を手がかりとし,音声に付随する書き起こしテキスト(本論文では転記テキストと呼ぶ)に着目した speaking style 推定モデルの構築を試みた.具体的な手続きとしては,はじめに様々な音声言語コーパスから音声に付随する転記テキストを無作為に抽出する.次にこれらの転記テキストを刺激として用い,3 尺度の speaking style の評定実験を行う.そして,評定結果を目的変数,転記テキストの品詞・語種率と形態素パタンを説明変数とし,重回帰分析により 3 尺度それぞれの回帰モデルを求める.交差検定を行った結果,本研究の提案手法によって 3 尺度の内 2 尺度の speaking style 評定値を高い精度で推定できることを確認した.
  • 佐藤 理史, 加納 隼人, 西村 翔平, 駒谷 和範
    2014 年 21 巻 3 号 p. 465-483
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    大学入試センター試験『国語』の現代文で出題される,いわゆる「傍線部問題」を解く方法を定式化し,実装した.本方法は,問題の本文の一部と 5 つの選択肢を照合し,表層的に最も類似した選択肢を選ぶことにより問題を解く.実装した方法は,「評論」の「傍線部問題」の半数以上に対して正解を出力した.
  • Dan Han, Pascual Martínez-Gómez, Yusuke Miyao, Katsuhito Sudoh, Masaak ...
    2014 年 21 巻 3 号 p. 485-514
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    In statistical machine translation, Chinese and Japanese is a well-known long-distance language pair that causes difficulties to word alignment techniques. Pre-reordering methods have been proven efficient and effective; however, they need reliable parsers to extract the syntactic structure of the source sentences. On one hand, we propose a framework in which only part-of-speech (POS) tags and unlabeled dependency parse trees are used to minimize the influence of parse errors, and linguistic knowledge on structural difference is encoded in the form of reordering rules. We show significant improvements in translation quality of sentences in the news domain over state-of-the-art reordering methods. On the other hand, we explore the relationship between dependency parsing and our pre-reordering method from two aspects: POS tags and dependencies. We observe the effects of different parse errors on reordering performance by combining empirical and descriptive approaches. In the empirical approach, we quantify the distribution of general parse errors along with reordering quality. In the descriptive approach, we extract seven influential error patterns and examine their correlations with reordering errors.
  • 藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋
    2014 年 21 巻 3 号 p. 515-539
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    これまで,主に新聞などのテキストを対象とした解析では,形態素解析器を始めとして高い解析精度が達成されている.しかし分野の異なるテキストに対しては,既存の解析モデルで,必ずしも高い解析精度を得られるわけではない.そこで本稿では,既存の言語資源を対象分野の特徴にあわせて自動的に変換する手法を提案する.本稿では,絵本を解析対象とし,既存の言語資源を絵本の特徴にあわせて自動的に変換し,学習に用いることで相当な精度向上が可能であることを示す.学習には既存の形態素解析器の学習機能を用いる.さらに,絵本自体にアノテーションしたデータを学習に用いる実験を行い,提案手法で得られる効果は,絵本自体への約 11,000 行,90,000 形態素のアノテーションと同程度であることを示す.また,同じ絵本の一部を学習データに追加する場合と,それ以外の場合について,学習曲線や誤り内容の変化を調査し,効果的なアノテーション方法を示す.考察では,絵本の対象年齢と解析精度の関係や,解析精度が向上しにくい語の分析を行い,更なる改良案を示す.また,絵本以外への適用可能性についても考察する.
  • Wenliang Gao, Nobuhiro Kaji, Naoki Yoshinaga, Masaru Kitsuregawa
    2014 年 21 巻 3 号 p. 541-561
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    We propose a method of collective sentiment classification that assumes dependencies among labels of an input set of reviews. The key observation behind our method is that the distribution of polarity labels over reviews written by each user or written on each product is often skewed in the real world; intolerant users tend to report complaints while popular products are likely to receive praise. We encode these characteristics of users and products (referred to as user leniency and product popularity) by introducing global features in supervised learning. To resolve dependencies among labels of a given set of reviews, we explore two approximated decoding algorithms, “easiest-first decoding” and “two-stage decoding.” Experimental results on real-world datasets with user and/or product information confirm that our method contributed greatly to classification accuracy.
  • 萩行 正嗣, 河原 大輔, 黒橋 禎夫
    2014 年 21 巻 3 号 p. 563-600
    発行日: 2014/06/16
    公開日: 2014/09/16
    ジャーナル フリー
    日本語では用言の項が省略されるゼロ照応と呼ばれる現象が頻出する.ゼロ照応は照応先が文章中に明示的に出現する文章内ゼロ照応と,明示的に出現しない外界ゼロ照応に分類でき,従来のゼロ照応解析は主に前者を対象としてきた.近年,Web が社会基盤となり,Web上でのテキストによる情報伝達がますます重要性をましている.そこでは,情報の送り手・受け手である著者・読者が重要な役割をはたすため,Web テキストの言語処理においても著者・読者を正確にとらえることが必要となる.しかし,文脈中で明確な表現(人称代名詞など)で言及されていない著者・読者は,従来の文章内ゼロ照応中心のゼロ照応解析では多くの場合対象外であった.このような背景から,本論文では,外界ゼロ照応および文章の著者・読者を扱うゼロ照応解析モデルを提案する.提案手法では外界ゼロ照応を扱うために,ゼロ代名詞の照応先の候補に外界ゼロ照応に対応する仮想的な談話要素を加える.また,語彙統語パターンを利用することで,文章中で著者や読者に言及している表現を自動的に識別する.実験により,我々の提案手法が外界ゼロ照応解析だけでなく,文章内ゼロ照応解析に対しても有効であることを示す.
feedback
Top