自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
23 巻, 5 号
選択された号の論文の7件中1~7を表示しています
巻頭言
論文
  • Piyoros Tungthamthiti, Kiyoaki Shirai, Masnizah Mohd
    2016 年 23 巻 5 号 p. 383-405
    発行日: 2016/12/15
    公開日: 2017/03/15
    ジャーナル フリー

    Recognition of sarcasm in microblogging is important in a range of NLP applications, such as opinion mining. However, this is a challenging task, as the real meaning of a sarcastic sentence is the opposite of the literal meaning. Furthermore, microblogging messages are short and usually written in a free style that may include misspellings, grammatical errors, and complex sentence structures. This paper proposes a novel method for identifying sarcasm in tweets. It combines two supervised classifiers, a Support Vector Machine (SVM) using N-gram features and an SVM using our proposed features. Our features represent the intensity and contradictions of sentiment in a tweet, derived by sentiment analysis. The sentiment contradiction feature also considers coherence among multiple sentences in the tweet, and this is automatically identified by our proposed method using unsupervised clustering and an adaptive genetic algorithm. Furthermore, a method for identifying the concepts of unknown sentiment words is used to compensate for gaps in the sentiment lexicon. Our method also considers punctuation and the special symbols that are frequently used in Twitter messaging. Experiments using two datasets demonstrated that our proposed system outperformed baseline systems on one dataset, while producing comparable results on the other. Accuracy of 82% and 76% was achieved in sarcasm identification on the two datasets.

  • 富士 秀, 藤田 篤, 内山 将夫, 隅田 英一郎, 松本 裕治
    2016 年 23 巻 5 号 p. 407-435
    発行日: 2016/12/15
    公開日: 2017/03/15
    ジャーナル フリー

    近年の統計的機械翻訳の進展によって特許文翻訳の精度は大きく向上したが,特許文中で特に重要性の高い特許請求項文に対する翻訳精度は依然として低い.特許請求項文は,(1) 極めて長い1文から構成される,(2) 特殊な文構造を持っている,という2つの特徴を持つサブ言語であるとみなせる.そしてこれらが翻訳精度の低さの原因となっている.本論文では,サブ言語に特有の特徴を処理する枠組みの導入によって,特許請求項の翻訳精度を向上させる手法について述べる.提案手法では,同期文脈自由文法を用いて原言語文が持つサブ言語に特有の文構造を目的言語側の文構造に変換することにより,適切な文構造を持った訳文を生成する.さらに本手法では,文全体ではなく,文を構成する構造部品を翻訳の処理単位とすることにより長文の問題に対処する.英日・日英・中日・日中の4翻訳方向で評価実験を行ったところ,全翻訳方向においてRIBES値が25ポイント以上向上し,本手法によって訳文品質が大幅に改善したことがわかった.英日・日英翻訳ではさらにBLEU値が5ポイント程度,中日・日中では1.5ポイント程度向上した.

  • 杉山 享志朗, 水上 雅博, Graham Neubig, 吉野 幸一郎, 鈴木 優, 中村 哲
    2016 年 23 巻 5 号 p. 437-461
    発行日: 2016/12/15
    公開日: 2017/03/15
    ジャーナル フリー

    質問応答システムが高い精度で幅広い質問に解答するためには,大規模な知識ベースが必要である.しかし,整備されている知識ベースの規模は言語により異なり,小規模の知識ベースしか持たない言語で高精度な質問応答を行うためには,機械翻訳を用いて異なる言語の大規模知識ベースを利用して言語横断質問応答を行う必要がある.ところが,このようなシステムでは機械翻訳システムの翻訳精度が質問応答の精度に影響を与える.一般的に,機械翻訳システムは人間が与える評価と相関を持つ評価尺度により精度が評価されている.そのため,この評価尺度による評価値が高くなるように機械翻訳システムは最適化されている.しかし,質問応答に適した翻訳結果は,人間にとって良い翻訳結果と同一とは限らない.つまり,質問応答システムに適した翻訳システムの評価尺度は,人間の直感に相関する評価尺度とは必ずしも合致しないと考えた.そこで本論文では,複数の翻訳手法を用いて言語横断質問応答データセットを作成し,複数の評価尺度を用いてそれぞれの翻訳結果の精度を評価する.そして,作成したデータセットを用いて言語横断質問応答を行い,質問応答精度と翻訳精度との相関を調査する.これにより,質問応答精度に影響を与える翻訳の要因や,質問応答精度と相関が高い評価尺度を明らかにする.さらに,自動評価尺度を用いて翻訳結果のリランキングを行うことによって,言語横断質問応答の精度を改善できることを示す.

  • 浅原 正幸, 加藤 祥
    2016 年 23 巻 5 号 p. 463-499
    発行日: 2016/12/15
    公開日: 2017/03/15
    ジャーナル フリー

    文書間類似度は,内容の類似度と表現の類似度の二つの側面を持っている.自動要約や機械翻訳ではシステム出力の内容評価を行うために参照要約(翻訳)との類似度を評価する尺度が提案されている.一方,表現を対照比較するための手段として,形態素(列)を特徴量とする空間上の計量が用いられる.本稿では,さまざまな文書間類似度について,距離・類似度・カーネル・順序尺度・相関係数の観点から,計量間の関係や同値性を論じた.さらに内容の同一性保持を目標として構築したコーパスを用いて,内容の差異と表現の差異それぞれに対する各計量のふるまいを調査し,文書間類似度に基づく自動評価の不安定さを明らかにした.

  • 三浦 明波, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲
    2016 年 23 巻 5 号 p. 499-528
    発行日: 2016/12/15
    公開日: 2017/03/15
    ジャーナル フリー

    統計的機械翻訳において,特定の言語対で十分な文量の対訳コーパスが得られない場合,中間言語を用いたピボット翻訳が有効な手法の一つである.複数のピボット翻訳手法が考案されている中でも,特に中間言語を介して 2 つの翻訳モデルを合成するテーブル合成手法で高い翻訳精度を達成可能と報告されている.ところが,従来のテーブル合成手法では,フレーズ対応推定時に用いた中間言語の情報は消失し,翻訳時には利用できない問題が発生する.本論文では,合成時に用いた中間言語の情報も記憶し,中間言語モデルを追加の情報源として翻訳に利用する新たなテーブル合成手法を提案する.また,国連文書による多言語コーパスを用いた実験により,本手法で評価を行ったすべての言語の組み合わせで従来手法よりも有意に高い翻訳精度が得られた.

訂正
feedback
Top