自然言語処理

自然言語処理特集号「言い換え」

佐藤理史

2004 年11 巻5 号 p. 1-2
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_1

ジャーナルフリー

PDF形式でダウンロード (185K)
多言語パラレルコーパスを利用した言い換え表現グループの構築と分析

柏岡秀紀

2004 年11 巻5 号 p. 3-18
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

近年, 自然言語処理において言い換え表現に関するデータやその処理技術が重要視されてきている. しかしながら, 言い換え表現をまとめたデータはそれほど多くない. これまで, 言い換え表現を抽出する手法としてパラレルコーパスを利用し, ある表現に対する複数の対訳を抽出する手法が提案されている. しかしながら, 複数の言い換え表現を獲得するのに適したパラレルコーパスはそれほど多くなく, また, 得られる表現のバリエーションはデータ量に対して大きくはない. 本稿では, この基礎的なアイデアに基き, 対訳関係でつながる表現の連鎖をすべて言い換え表現セットとして捕えることで, バリエーションを広げることを試みた. ただし, 微妙に異なる言い換えの連鎖により言い換え表現セットが全体としては, 一つのまとまった言い換え表現とならない可能性が生じる. そこで, 一度まとめあげられた言い換え表現を二部グラフ (bipartite graph) とみなし分解する手法を提案し, 4ヶ国語の基本旅行会話表現集に対して言い換え表現グループを構築し分割結果をツールを利用して人手による判定を行ったところ, ほぼ良好なセットを得ることができた.

抄録全体を表示

PDF形式でダウンロード (9544K)
WWWを用いた書き言葉特有語彙から話し言葉語彙への用言の言い換え

鍛治伸裕, 岡本雅史, 黒橋禎夫

2004 年11 巻5 号 p. 19-37
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_19

ジャーナルフリー

抄録を表示する抄録を非表示にする

書き言葉で使われる語彙と, 話し言葉で使われる語彙には大きな違いがある. そのため, 書き言葉テキストから合成された音声は不自然なものとなってしまう. 書き言葉テキストからでも自然な音声の合成を可能にするために, 本論文では, 書き言葉特有語彙から話し言葉語彙への言い換えを学習する手法を提案する. ある表現が書き言葉特有語彙であるか, 話し言葉語彙であるかは, その表現の書き言葉コーパスでの出現確率と話し言葉コーパスでの出現確率をもとにして判断する. 書き言葉コーパスと話し言葉コーパスはWWWから自動収集したものを用いる. 実験の結果, 書き言葉コーパスと話し言葉コーパスの収集精度は94%, 言い換え学習の精度は79%であり, 提案手法の有効性を示すことができた.

抄録全体を表示

PDF形式でダウンロード (3885K)
日本語言い換え処理を利用した日本語-ウイグル語対訳辞書の拡充

小川泰弘, 釜谷聡史, マフスットムフタル, 稲垣康善

2004 年11 巻5 号 p. 39-61
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

機械翻訳に対する要求の高まりに伴い, 日本語や英語, 韓国語といった言語の翻訳に関する研究が進み, 実用的なシステムが構築されつつある. その一方で, そうした研究があまり進んでいない言語が存在する. こうした言語においては, 翻訳の要である対訳辞書の整備も遅れている場合が多い. 一般に対訳辞書の構築には高いコストが必要であり, 機械翻訳システムを実現する上での障害となっている. しかし, 人間が翻訳作業をする場合, 対訳辞書に記載がない単語を別の表現に言い換えて辞書を引くことにより, この問題に対処する場合がある. 本研究ではこの手法を模倣し, 未登録語を登録語に言い換えることにより対訳辞書を拡充することを提案する. 本論文では, 対訳辞書の拡充に必要な単語の言い換え処理を収集段階と選抜段階の二つに分割し, 前者において語義文に基づく手法を, 後者において類似度に基づく手法をそれぞれ適用した. また, 類似度に基づく手法では, シソーラスにおける概念問の距離に加え, 単語を構成する漢字の語義を利用した. これによって, 語法や概念が近く意味的にも等価な言い換えを獲得できた. さらに, 獲得した言い換えを翻訳システムで翻訳して日本語一ウイグル語対訳辞書への追加を試みたところ, 未登録語300語のうち, その68.3%に対して利用可能な対訳が得られた.

抄録全体を表示

PDF形式でダウンロード (2809K)
Interaction between Paraphraser and Transfer for Spoken Language Translation

Kazuhide Yamamoto

2004 年11 巻5 号 p. 63-86
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_63

ジャーナルフリー

抄録を表示する抄録を非表示にする

One of the problems in spoken language translation is the enormous variety of expressions not found in text translation. This volume can lead to a sparse translation coverage. In order to tackle this problem, we propose a machine translation model where an input is translated through both source-language and target-language paraphrasing processes. In this paper, we discuss the source paraphrasing and the language transfer processes, and the design of our translation model. In the source language paraphrasing, we take the practical approach of untangling slight variations in the source language before transferring a source expression to its target. We discuss how effective our paraphrasing process is in the sense of reducing varieties in a spoken language, with a focus on how many source language patterns are reduced by paraphrasing. In the translation model, we propose an interaction model between the source language paraphraser and the transfer, unlike the conventional assembly-line process flow. In our evaluation we illustrate that over 70% of the input utterances is expected to somehow be changed. Accordingly, we can achieve that one-fifth of all skeleton expressions can be merged into other skeletons, that increases chances of correct translations being obtained. Furthermore, we observe that our interaction model with the paraphraser increases 20-40 percentage points of translation capability, regardless of the transfer knowledge size.

抄録全体を表示

PDF形式でダウンロード (4909K)
Paraphrasing as Machine Translation

Andrew Finch, Taro Watanabe, Yasuhiro Akiba, Eiichiro Sumita

2004 年11 巻5 号 p. 87-111
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

This article presents two statistically-based methods of automatically generating paraphrases for sentences; one based on direct statistical machine translation, the other based on data-oriented techniques. These paraphrasers are evaluated by human judges, and compared to both human paraphrases and those generated by a simple baseline model. The data-oriented approach proved to be the most successful in this evaluation and a second experiment was conducted to determine the usefulness of machine-generated paraphrases when used to expand the reference set used for machine translation evaluation. Varying numbers of synthetic paraphrases were mixed with varying numbers of real references to determine the circumstances under which the addition of synthetic paraphrases might be useful. Nine different machine translation systems were evaluated in this study using scores from nine human judges. Three machine translation evaluation schemes were used to perform the machine translation evaluation: BLEU, NIST and mWER. The results show that the usefulness of the synthetic paraphrases depends on which of the machine translation evaluation methods is used. The paraphrases degraded the NIST performance, but improved the evaluation performance of both BLEU and mWER.

抄録全体を表示

PDF形式でダウンロード (2356K)
言い換えの統一的モデル

尺度に基づく変形の利用

村田真樹, 井佐原均

2004 年11 巻5 号 p. 113-133
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_113

ジャーナルフリー

抄録を表示する抄録を非表示にする

言い換えに関する研究は平易文生成, 要約, 質問応答と多岐の分野において重要なものであるが, 本稿では言い換えの統一的モデルとして, 尺度に基づく変形による手法を示し, このモデルによって種々の言い換えを統一的に扱えることを示す. このモデルでは, 多様な言い換えの問題の違いを, 尺度で表現することで, 多様な言い換えを統一的に扱えるようになっている. 本稿では具体的にこのモデルで, 文内圧縮システム, 推敲システム, 文章語口語変換システム, RL発音回避システム, 質問応答システムを構築できることを示す. 本稿の言い換えの統一的モデルは, システムの作成を効率的にしたり, 言い換えの原理を容易に理解させたり, 多様な新たな言い換えを思いつかせる効果があり, 有益なものである.

抄録全体を表示

PDF形式でダウンロード (2391K)
複数の辞書の定義文の照合に基づく同義表現の自動獲得

村田真樹, 金丸敏幸, 井佐原均

2004 年11 巻5 号 p. 135-149
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_135

ジャーナルフリー

抄録を表示する抄録を非表示にする

近年, 言い換え表現の自動獲得の研究が重要視されつつある. 本稿では, 複数の辞書を用意して, それらにおける同じ項目の定義文を照合することにより, 言い換え表現の一種である同義表現を抽出することを試みた. また, 同義表現を抽出するための新しい尺度を提案し, その尺度で抽出データをソートした結果の精度は, 一般によく行なわれる頻度だけでソートする方法による結果よりも高いことを確認した. この尺度は, 他の同義表現の抽出の研究にも利用できる有用なものである. 提案手法では, 同義表現のみを正解とするとき, 上位500個で0.748, ランダムに抽出した500個で0.220の抽出精度であった. また, 誤りの多くのものは包含関係や類義関係にある表現であり, それらも正解と判断する場合は, 上位500個で0.954, ランダムに抽出した500個で0.722の抽出精度であった.

抄録全体を表示

PDF形式でダウンロード (1704K)
言い換え技術に関する研究動向

乾健太郎, 藤田篤

2004 年11 巻5 号 p. 151-198
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.5_151

ジャーナルフリー

抄録を表示する抄録を非表示にする

意味が近似的に等価な言語表現の異形を言い換えと言う. 言い換え技術とは, 所与の言語表現からその言い換えを生成する言い換え生成技術, および所与の言語表現対が言い換え関係にあるか否かを判定する言い換え認識技術の総称である. これらの技術は, 機械翻訳の前編集や読解支援のための文章簡単化, 質問応答や複数文書要約など, 様々な応用に貢献する応用横断的なミドルウェア技術になると期待されており, 近年研究者の関心を集めてきた.本論文では, こうした言い換え技術について, 工学的研究を中心に近年の動向を紹介する. 具体的には, 言い換えの定義や言い換え技術の応用可能性について論じた後, 構造変換による言い換え生成, 質問応答・複数文書要約のための言い換え認識に関する研究を概観し, 最後に言い換え知識の自動獲得に関する最新の研究動向を紹介する.

抄録全体を表示

PDF形式でダウンロード (11083K)

J-STAGEへの登録はこちら（無料）