自然言語処理

10周年に際して

石崎俊

2004 年 11 巻 2 号 p. 1-2
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_1

ジャーナルフリー

PDF形式でダウンロード (303K)
Application and Analysis of Sentence Similarity Based Machine Translation Evaluation

Jianmin Yao, Hao Yu, Tiejun Zhao, Sheng Li

2004 年 11 巻 2 号 p. 3-20
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

To help developing a localization oriented example based machine translation (EBMT) system, an automatic machine translation evaluation method is implemented which adopts edit similarity, cosine correlation and Dice coefficient as criteria. Experiment shows that the evaluation method distinguishes well between translations of different intelligibility and fluency. The similarity between Dice coefficient and cosine are analyzed mathematically and observed in the experiments. To verify theconsistency between automatic and human evaluation methods, six machine translation systems are scored using both human and automatic methods. The evaluation results are compared which show consistency between different evaluation methods. Statistical analysis is made to validate the experimental results. Correlation coefficient and significance tests at 99%level are made to ensure the reliability of the results. Linear regression equations are built to map the automatic scoring results to human scorings. The regression equation is utilized to predict human scoring of machine translation systems. The prediction result is promising. Experimental results show that the proposed MT evaluation method is applicable to general MT systems and EBMT as well.

抄録全体を表示

PDF形式でダウンロード (2438K)
自由回答アンケートにおける要求意図判定基準

大塚裕子, 内山将夫, 井佐原均

2004 年 11 巻 2 号 p. 21-66
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_21

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究の目的は, 様々な立場の回二答者によって書かれた自由記述アンケートの回答から回答者の要求意図を抽出することである. このため, まず, 本研究におけるアンケート調査および自由回答を処理する際の方針を明らかにし, 要求意図に着目したプロセスについて述べた. 次に, 各回答が要求意図を含むかどうかの判定基準として, 典型的な要求表現「てほしい」に言い換え可能かであるかどうかにより判定するという意図判定基準を作成した. この判定基準については, 客観性, 再現性, 有効性の三つの立場からの検証を行った. 始めに客観性について, 同一判定者による検証を行った. 作成した意図判定基準を回答テキストに適用し得られた結果の分析から, 判定基準によって要求が取り出せること, かつ, 従来よりも網羅性が高いことがわかった. また, 分析に基づいて作成されたタグ付けコーパスを対象とした機械学習による実験から, 判定基準の適用結果が客観的であることがわかった.次に, 異なる判定者による検証として, 判定基準を用いて複数の作業者による言い換え実験を行った. この言い換え可否の一致率から判定基準の再現性の高さを示した. さらに, この結果と, 判定基準を用いずに要求か否かを主観的に判断する実験の結果との比較から, 判定基準の有効性を示すことができた.

抄録全体を表示

PDF形式でダウンロード (7419K)
講演の書き起こしに対する統計的手法を用いた文体の整形

下岡和也, 南條浩輝, 河原達也

2004 年 11 巻 2 号 p. 67-83
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_67

ジャーナルフリー

抄録を表示する抄録を非表示にする

講演音声のような話し言葉の書き起こしや音声認識結果には, 話し言葉特有の表現が数多く含まれており講演録などのアーカイブとして二次利用しにくいため, 文章として適した形態に整形する必要がある. 本稿では, 統計的機械翻訳の考え方に基づいて講演の書き起こしを整形された文章に自動的に変換する方法を提案する. 本研究で扱う処理は, フィラーの削除, 句点の挿入, 助詞の挿入, 書き言葉表現への変換, 文体の統一である. これらの処理を統合的に行うようにビームサーチを導入した. 実際の講演の書き起こしを用いた定量的な評価により統計的な手法の有効性が示され, 句点と助詞の挿入に関して高い精度を得ることができた.

抄録全体を表示

PDF形式でダウンロード (2998K)
直訳性を利用した機械翻訳知識の自動構築

今村賢治, 隅田英一郎, 松本裕治

2004 年 11 巻 2 号 p. 85-99
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_85

ジャーナルフリー

抄録を表示する抄録を非表示にする

機械翻訳知識を対訳コーパスから自動構築する際, コーパス中に存在する翻訳の多様性に起因して冗長な知識が獲得され, 誤訳や曖昧性増大の原因となる. 本稿ではこの問題に対し, 「機械翻訳に適した対訳文」に制限し, 翻訳知識自動構築を試みる. 機械翻訳に適した対訳文の指標として直訳性を提案し, これを測定する尺度として対訳対応率を定義した.
この対訳対応率に従い, 2つの知識構築法を提案する. 第一は, 翻訳知識構築の前処理としての, 直訳性を用いた対訳文フィルタリング, 第二は対訳文を直訳部/意訳部に分割し, 部分に応じた汎化手法を適用する. これらの効果は, 自動構築した知識を用いた機械翻訳による, 訳文の品質という観点で評価を行った. その結果, 後者の分割構築の場合で約8.6%の入力文について翻訳品質が向上し, 直訳性を用いた機械翻訳知識構築は, 翻訳品質向上に有効であることが確認された.

抄録全体を表示

PDF形式でダウンロード (1517K)
人間による翻訳文と機械翻訳文における動詞の馴染み度の比較分析

吉見毅彦

2004 年 11 巻 2 号 p. 101-113
発行日: 2004/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.2_101

ジャーナルフリー

抄録を表示する抄録を非表示にする

機械翻訳システムによる翻訳を人間による翻訳に近づけるために取り組むべき課題を明らかにしようという試みの一環として, 本稿では, ニュース記事から無作為抽出した英文を英日機械翻訳システムで翻訳した結果と, これらの英文を人間が翻訳した結果を照らし合わせ, 両者の間で使用されている動詞の馴染み度の分布に違いがあるかどうかを計量的に分析した. 動詞の馴染み度を測る尺度としては, NTTの単語親密度データベースを利用した. 分析の結果, 機械翻訳システムによる翻訳と人間による翻訳の間で単語親密度の分布に統計的有意差は認められず, 使用されている動詞の馴染み度に関しては両者の間で違いがないということが示唆された. 従って, 格要素などとの共起関係を考えず動詞だけに着目した場合, 調査対象とした機械翻訳システムでは動詞の翻訳品質は一定のレベルに達していると判断できる.

抄録全体を表示

PDF形式でダウンロード (1254K)

J-STAGEへの登録はこちら（無料）