自然言語処理

自然言語処理特集号「SENSEVAL-2日本語タスク」

黒橋禎夫

2003 年 10 巻 3 号 p. 1-2
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_1

ジャーナルフリー

PDF形式でダウンロード (147K)
SENSEVAL-2日本語辞書タスク

白井清昭

2003 年 10 巻 3 号 p. 3-24
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

SENSEVALは語義曖昧性解消を対象としたコンテストである. 本論文では, 第2回SENSEVAL (SENSEVAL-2) における日本語辞書タスクの概要について報告する. 日本語辞書タスクでは, 語の意味の区別 (曖昧性) を岩波国語辞典によって定義した. 参加者には, 岩波国語辞典, 訓練データ, 評価データの3つが配布された。訓練データは, 3,000個の新聞記事中の単語に正しい語義を付与したコーパスである. 一方評価データは, 参加者のシステムが語義を選択するべき単語を含んだ新聞記事である. 評価単語の種類は, 名詞50, 動詞50, 合わせて100個である. また各評価単語毎に100ずつ語義を選択するとしたため, 評価単語の総数は10,000である. 正解データは, 評価対象となる10,000個の単語について, 二名の作業者が独立に正しい語義を付与して作成した. この際, 二者の語義が一致した割合は0.863であり, Cohenのκは0.657であった. また, 二者の語義が一致しなかった場合には, 第三者が正しい語義を選んだ. 日本語辞書タスクには, 3団体7システムが参加した. ベースラインシステムのスコア (正解率) が0.726であるのに対し, 一番成績の良かった参加者のシステムのスコアは0.786であった.

抄録全体を表示

PDF形式でダウンロード (5885K)
SENSEVAL-2 Japanese Translation Task

Sadao Kurohashi, Kiyotaka Uchimoto

2003 年 10 巻 3 号 p. 25-37
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_25

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper describes the SENSEVAL-2 Japanese translation task. In this task, word senses are defined according to distinct translations in a given target language. A translation memory (TM) was constructed which contains, for each Japanese head word, a list of typical Japanese expressions and their English translations. For each test word instance, participants were required to submit the TM record best approximating that usage, or alternatively, actual target word translations. There were 9 system entries from a total of 7 organizations.

抄録全体を表示

PDF形式でダウンロード (2650K)
文脈素性のベクタ空間モデルを用いた日英翻訳選択

SENSEVAL-2日本語翻訳タスク参加システムの開発

熊野正, 柏岡秀紀, 田中英輝

2003 年 10 巻 3 号 p. 39-59
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

SENSEVAL-2日本語翻訳タスクは, 日本語単語の語義をその訳語の異なりとして定義・分類し, 新たな表現に含まれる日本語単語の語義を判別する課題である. 実際の課題としては, 語義分類の定義として日英対訳用例を収集した翻訳メモリ (TM) が与えられ, 語義の選択はTM中から適切な用例を選択するか, 対象となる日本語単語の翻訳結果を示すことで解くことができる. 我々は, 入力表現の対象語周辺文脈が最も似ているTMの日本語表現を選択する単言語の問題と見なし, 本タスクを解くシステムを開発した. 対象語周辺文脈の類似度は, 対象語周辺文脈を特徴づける要素である「文脈素性」の出現を各次元に配置した「文脈素性ベクタ」を用い, ベクタ空間モデルを用いて計算する. 文脈素性は, 対象語周辺文脈の特徴を, 対象語との構文的/位置的関係と単語の形態的/意味的属性の組で表現したもので, これにより, TM表現問の文脈の違いを詳細に表現できる. SENSEVAL-2参加システムは, 形態素・構文解析器にJUMAN+KNP, シソーラスに日本語彙体系を用い, 精度・再現率はともに45.8%を達成した. 各素性の有効性について分析した結果, シソーラスからた意味属性に関する文脈素性が性能に最も寄与しており, 係り受けに関する素性は限定的にしか寄与していないことがわかった.

抄録全体を表示

PDF形式でダウンロード (1956K)
EMアルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用

新納浩幸

2003 年 10 巻 3 号 p. 61-73
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_61

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, Nigamらによって提案されたEMアルゴリズムを利用した教師なし学習の手法を, SENSEVAL2の日本語翻訳タスクで出題された名詞の語義の曖昧性解消問題に適用する. この手法は, ラベルなしデータをラベルを欠損値とする観測データ, その観測データを発生させるモデルをNaive Bayesモデル, このモデルの未知パラメータをラベルcのもとで素性fが起る条件付き確率p (f|c) に設定して, EMアルゴリズムを用いる. 結果として, モデルの識別精度が向上する. ここでは識別のための素性として, 対象単語の前後数単語の原型や表記という簡易なものに設定した. 実験では, ラベル付き訓練データのみから学習したNaive Bayesの正解率が58.2%, 同データから学習した決定リストの正解率が58.9% (Ibarakiの公式成績) であったのに対し, ラベル付き訓練データの他にラベルなし訓練データを用いた本手法では, 61.8%の正解率を得た. また訓練データの一部の不具合を修正することで, Naive Bayesの正解率を62.3%に改善できた. 更に本手法によりそれを68.2%に向上させることができた.

抄録全体を表示

PDF形式でダウンロード (1224K)
日本語翻訳タスクへの帰納論理プログラミングの適用

新納浩幸, 阿部修也

2003 年 10 巻 3 号 p. 75-85
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_75

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, SENSEVAL2の日本語翻訳タスクに対して帰納論理プログラミング (Inductive Logic Programming, ILP) を適用する. 翻訳タスクは分類問題として定式化できるため, 帰納学習の手法を利用して解決できる. しかし翻訳タスクは新たに訓練データを作るのが困難という特異なタスクになっており, 単純に確率統計的な帰納学習手法を適用することはできない. Translation Memoryの例文だけ, つまり少ない訓練データのみを用いて, どのように分類規則を学習すれば良いかが, 翻訳タスク解決の1つの鍵である. このために本論文ではILPを用いる. ILPは確率統計的な帰納学習手法にはない特徴を有する. それは背景知識を容易に利用可能である点である. 背景知識とは訓練データには明示されない問題固有の知識である. この背景知識によって訓練データが少ない場合の学習が可能となる. ここではILPの実装システムとしてProgol, 背景知識として分類語彙表を利用することで, 翻訳タスクに対して正解率54.0%を達成した. この値は, 付加的な訓練データを用いないSENSEVAL2参加の他システムと比較して優れている.

抄録全体を表示

PDF形式でダウンロード (1056K)
用例に基づく手法と機械学習モデルの組み合せによる訳語選択

内元清貴, 関根聡, 村田真樹, 井佐原均

2003 年 10 巻 3 号 p. 87-114
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 機械翻訳における訳語選択の手法について述べる. 我々のシステムは, 入力文と対象単語が与えられたとき, 翻訳メモリと呼ばれる対訳用例集合と入力文との類似度を求め, 類似度が最大となる用例集合を用いて対象単語の訳語選択を行なう. 類似度は, 用例に基づく手法と機械学習モデルを用いて計算される. 類似度の計算には, 文字列の類似性や入力文における対象単語周辺の単語, 入力文中の内容語とその訳語候補の対訳コーパスおよび日英の単言語コーパスにおける出現頻度などを考慮する. 入力文と対象単語が与えられると, まず用例に基づく手法を適用し, 類似した用例が見つからなかった場合に機械学習モデルを適用する. 機械学習モデルは複数用意し, クロスバリデーションなどにより単語毎に最適な学習モデルを選択する. 本論文では, 2001年の春に開催された単語の多義性解消のコンテスト第2回SENSEVALでの結果をもとに, 提案手法の有効性と, どのような情報が精度向上に有効であったかについて述べる.

抄録全体を表示

PDF形式でダウンロード (2842K)
SENSEVAL2J辞書タスクでのCRLの取り組み

日本語単語の多義性解消における種々の機械学習手法と素性の比較

村田真樹, 内山将夫, 内元清貴, 馬青, 井佐原均

2003 年 10 巻 3 号 p. 115-133
発行日: 2003/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.3_115

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 2001年に行なわれたSENSEVAL2コンテストの日本語辞書タスクでのわれわれの取り組みについて述べる. われわれは機械学習手法を用いるアプローチを採用した. この研究では数多くの機械学習手法と素性を比較検討し用いている. コンテストには, 我々は, サポートベクトルマシン法, シンプルベイズ法, またそれらの組み合わせのシステム工つの合計4システムを提出し, 組合わせシステムが参加システム中もっとも高い精度 (0.786) を得た. コンテストの後, シンプルベイズ法で用いていたパラメータを調節したところさらに高い精度を得た. 現在もっとも性能の高いシステムは二つのシンプルベイズ法を組み合わせたシステムであり, その精度は0.793である. また, 本稿では素性を変更した実験もいくつか追加で行ない, 各素性の有効性, 特徴を調査した. その調査結果では文字列素性のみを用いても比較的高い精度が得られるなどの興味深い知見が得られている. また, 関連文献も紹介し, 今後の多義解消の研究のための有益な情報を提供した.

抄録全体を表示

PDF形式でダウンロード (2011K)

J-STAGEへの登録はこちら（無料）