自然言語処理

人工知能と言語理解

岡田直之

1999 年 6 巻 1 号 p. 1-2
発行日: 1999/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.1

ジャーナルフリー

PDF形式でダウンロード (202K)
決定木学習による日本語対話文の格要素省略補完

山本和英, 隅田英一郎

1999 年 6 巻 1 号 p. 3-28
発行日: 1999/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

機械翻訳では目的言語で必須格となる格の人称と数を補う必要がある。本論文では、省略補完知識の決定木による表現、及び帰納的に機械学習することによって日本語対話文の格要素省略を補完する手法を提案する。本研究では形態素分割され、品詞、省略情報が付与された任意のコーパスとシソーラスのみを用いて行なう。決定木学習には、内容語の意味属性、機能語の出現、言語外情報の3種類の属性を使用する。未学習文に対してテストを行なった結果、ガ、ヲ、ニの三つの格で照応的な省略の補完を十分な精度で行なうことができた。またガ格と二格に対しては人称と数の補完にも有効であることを確認した。ガ格に関して、処理の有効性を学習量、話題依存性、使用属性との関係の三点から実験し、以下の知見が得られた。 (1) 当該問題に対する決定木学習量は全体として10⁴～10⁵事例で十分である。この時の補完精度の上限は80%～85%と予想される。 (2) 対話の話題が既知もしくは予測可能な時は、その話題のみのコーパスによる学習が最善である。話題が未知の場合は、可能な限り広範な話題に対して学習するのが最も効果的である。 (3) 学習量増加に伴い、決定木には機能語などの話題に依存しない属性が多く採用される。

抄録全体を表示

PDF形式でダウンロード (2530K)
長さ可変文脈を用いたマルチニューロタガー

馬青, 井佐原均

1999 年 6 巻 1 号 p. 29-42
発行日: 1999/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.29

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿は最長文脈優先に基づいて長さ可変文脈で品詞タグづけを行うマルチニューロタガーを提案する. マルチニューロタガーはそれぞれ長さの異なる文脈を入力とした複数のニューラルネット (それぞれをシングルニューロタガーと呼ぶ) とそれらの出力を選別する最長文脈優先セレクターで構成される. 個々のニューラルネットの訓練はそれぞれ独立に行なわれるのではなく, 短い文脈での訓練結果 (訓練で獲得した重み) を長い文脈での初期値として使う. その結果, 訓練時間が大幅に短縮でき, 複数のニューラルネットを用いても訓練時間はほとんど変わらない. タグづけにおいては, 目標単語自身の影響が最も強く, 前後の単語もそれぞれの位置に応じた影響を与えていることを反映させるために, 入力の各構成部分は情報量最大を考慮して訓練データから得られるインフォメーションゲイン (略してIGと呼ぶ) を影響度として重み付けられる. その結果, 更に訓練時間が短縮され, タグづけの性能が改善される. 計算機実験の結果, マルチニューロタガーは, 8, 322文の小規模タイ語コーパスを訓練に用いることにより, 未訓練タイ語データを94%以上の正解率でタグづけすることができた. この結果は, 固定長さを文脈としたどのシングルニューロタガーを用いた場合よりも優れ, マルチニューロタガーはタグづけ過程において動的に適切な長さの文脈を見つけていることを示した.

抄録全体を表示

PDF形式でダウンロード (1310K)
表題へのつながりに基づく文の重要度評価

吉見毅彦, 奥西稔幸, 山路孝浩, 福持陽士

1999 年 6 巻 1 号 p. 43-57
発行日: 1999/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.43

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 表層的な情報を手がかりとして文と文のつながりの強さを評価し, その強さに基づいて重要な文を選び出す手法を提案する. 文の重要度の評価に際して, 表題はテキスト中で最も重要な文であり, 重要な文へのつながりが強い文ほど重要な文であるという仮定を置き, 文から表題へのつながりの強さをその文の重要度とする. 二つの文のつながりの強さは, 人称代名詞による前方照応と, 同一辞書見出し語による語彙的なつながりに着目して評価する. 平均で29.0文から成る英文テキスト80編を対象とした実験では, 文選択率を25%に設定したとき, 従来手法による精度を上回る再現率78.2%, 適合率57.7%の精度を得, 比較的短いテキストに対して提案手法が有効であることを確認した.

抄録全体を表示

PDF形式でダウンロード (1377K)
The Concept of Sensitive Word in Chinese

A Survey in a Machine-Readable Dictionary

Ren Fuji, Jian-Yun Nie

1999 年 6 巻 1 号 p. 59-78
発行日: 1999/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.59

ジャーナルフリー

抄録を表示する抄録を非表示にする

In Machine Translation (MT), using compound words or phrases often makes the translation process easier. For example, the phrase _??_ corresponds unambiguously to “infbrmation highway”. It is not necessary to break it down to _??_ (infbrmation), _??_ (highspeed) and _??_ (road). However, some compound words (phrases) in Chinese are composed of simpler words which can play significantly different roles in sentences when they are broken down. For example, thecompoundword _?? (machine translation) may be broken into _??_ (machine) and _??_ (translate), as in the sentence _??_ (He uses a machine to translate papers). We call such a compound word “Sensitive Word”. During Chinese MI processing, if the first segmentation result in which a sensitive word is segmentec as a single word leads to a failure, the alternative solution with the sensitive worc broken down is considered as the preferred one. This allows us to reach at a higher efficiency by avoiding examining unlikely segmentation solutions. In this paper, we describe the problems related to sensitive words. A machine readable dictionary has been examined, and 764 sensitive words have been found among 87 600 words. this shows that sensitive word is a common phenomenon in Chinese that is worth closer examination.

抄録全体を表示

PDF形式でダウンロード (1975K)

J-STAGEへの登録はこちら（無料）