自然言語処理

経験則とその限界

白井諭

1998 年 5 巻 1 号 p. 1-2
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.1

ジャーナルフリー

PDF形式でダウンロード (204K)
Reinventing Part-Of-Speech Tagging

Ezra Black, Stephen Eubank, Hideki Kashioka, David Magerman, Jared Sai ...

1998 年 5 巻 1 号 p. 3-23
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

Part-of-speech tagging methodology has succeeded, but on problems that may lack real-world application. Redirection of the field is indicated, toward potentially more useful, but harder and more sophisticated tagging tasks: (1) using much more detailed tagsets (semantically and syntactically); (2) testing performance on treebanks reflecting the huge gamut of domains, etc., characterizing real-world applications; (3) understanding the magnitude of the unknown-word and unknown-tag problems, then overcoming them. Tagging results are presented on two versions of a new, highly variegated treebank, featuring tagsets of 2720 and 443 tags, respectively, and utilizing a dictionaryless, decision-tree tagger.

抄録全体を表示

PDF形式でダウンロード (2059K)
待遇表現の丁寧さの計算モデル

語尾の付加による待遇値変化

白土保, 井佐原均

1998 年 5 巻 1 号 p. 25-36
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.25

ジャーナルフリー

抄録を表示する抄録を非表示にする

待遇表現の丁寧さの計算モデルとして, 待遇表現に語尾を付加した際の待遇値 (待遇表現の丁寧さの度合い) の変化に関する定量的なモデルを提案した. このモデルでは (1) それぞれの待遇表現に対し, その表現が用いられるべき状況が待遇値に関する正規分布として表される, (2) それぞれの語尾に対し, その語尾が付加される待遇表現が用いられるべき状況が待遇値に関する正規分布として表される, というふたつの仮定を立て, 待遇表現に語尾を付加した際に得られる情報量を定義した. そして更に, 語尾の付加による待遇値の変化量は, 付加の際得られる情報量に関する一次式で表すことができる, という仮定を立て, 語尾の付加による待遇値の変化量を, 語尾が付加される前の待遇表現に対する待遇値の関数として定義した. このモデルの妥当性を検証するため, ふたつの異なった発話状況において用いられる待遇表現のグループそれぞれに対し, 語尾の付加による待遇値変化を求める心理実験を行った. その結果, いずれのグループにおいても語尾の付加による待遇値変化は, 提案されたモデルによって予測された傾向に従い, モデルの妥当性が支持された.

抄録全体を表示

PDF形式でダウンロード (1058K)
PP Attachment Ambiguity Resolution through Supervised Learning

Jiri Stetina, Makoto Nagao

1998 年 5 巻 1 号 p. 37-57
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.37

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper deals with two important ambiguities of natural language: prepositional phrase attachment and word sense ambiguity. We propose a new supervised learning method for PP-attachment based on a semantically tagged corpus. Because any sufficiently big sense-tagged corpus does not exist, we also propose a new unsupervised context based word sense disambiguation algorithm which amends the training corpus for the PP attachment by word sense tags. We present the results of our approach, which not only surpasses any existing method but also draws near human performance.

抄録全体を表示

PDF形式でダウンロード (2063K)
セグメントの分割と統合による文章の構造解析

田村直良, 和田啓二

1998 年 5 巻 1 号 p. 59-78
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.59

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究では, 論説文の文章構造についてモデル化し, それに基づいた文章解析手法について論じる. 近年のインターネットや, 電子媒体の発達などにより大量の電子化された文書が個人の周囲にあふれてきているが, 大量の文書を高速に処理するためには, 記述されている領域に依存した知識を前提とせず, なるべく深い意味解析に立ち入らない「表層的」な処理により行なうことが求められる. ここで提案する手法での構造化は, 文末の表層的な情報によるモダリティの解析に依る. これを基に文章の論説モデルを定義する. 文章解析のトップダウン的アプローチとしては, 文章のセグメンテーションの手法を応用し, 評価関数の値の大きい箇所から分割していく. 文章解析のボトムアップ的アプローチとしては, 修辞関係に着目したセグメント統合により隣接していて関係が強いところから統合していく. ここで提案する手法は, 構造木の葉に近い部分をボトムアップ的解析で, 根に近い部分をトップダウン的解析で処理することにより, 一方の欠点を他方の利点で補う効果的なものである. 本研究のような対象においては, 解析結果を正解と不正解の2値に分けてしまうのでは評価としては不十分であり, 正解に近いものはそれなりに評価してやる必要がある. これについて, 構造木の根に近い部分は形式段落の位置に基づく客観的評価, 葉に近い部分は人間が解析したものとの比較, 全体的な構造に対しては個々の解析結果を人間が検討することにより本手法の評価を行う.

抄録全体を表示

PDF形式でダウンロード (1640K)
単語の位置情報に基づくコーパスからのコロケーションの自動抽出

小田裕樹, 北研二

1998 年 5 巻 1 号 p. 79-99
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.79

ジャーナルフリー

抄録を表示する抄録を非表示にする

コロケーションの知識は, 単語間の共起情報を与える言語学的に重要な知識源であり, 機械翻訳をはじめとする自然言語処理において, 重要な意味をもっている. 本論文では, コーパスからコロケーションを自動的に抽出する新しい手法を提案する. 提案する手法では, コーパス中の各単語の位置情報を用いて, 任意の文中のコロケーションを連続型・不連続型の別に抽出する. また, 提案した自動抽出法を用いて, ATR対話コーパスからコロケーションを抽出する実験を行った. 本実験で得られた結果は, 連続型・不連続型コロケーションともに重要な表現が抽出されており, 提案した抽出法の有効性を示すことができた.

抄録全体を表示

PDF形式でダウンロード (5657K)
確率的クラスタリングを用いた文書連想検索

岩山真, 徳永健伸

1998 年 5 巻 1 号 p. 101-117
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.101

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 指定した文書と類似する文書を検索する文書連想検索のための確率的クラスタリング HBC (Hierarchical Bayesian Clustering) を提案する. 文書連想検索を実現する際の問題点は, 類似文書の検索に時間がかかることである. 単純な網羅検索では, 比較対象の大きさPVに比例した O (N) の検索時間を要する. 本論文では, クラスタ検索と呼ばれる検索手法を用いることでこの問題を解決する. クラスタ検索では, 通常, クラスタリングによりクラスタの二分木をあらかじめ構築しておき, その上でトップダウンに二分木検索を行うため, 検索時間を O (log₂N) に抑えることができる. ところが, 従来のクラスタ検索では, 検索時に使う距離尺度とクラスタリング時に使う距離尺度が直接関係ないため, 単純な二分木検索では十分な検索精度が得られなかった. それに対しHBCは, クラスタリングの対象文書を自己検索した際の精度を最大化するため, 検索により適したクラスタリングである. 実験では, 「現代用語の基礎知識」を用いて, HBCを用いたクラスタ検索がWard法を用いた従来のクラスタ検索よりも優れていることを実証する. また, 「Wall Street Journal」を用いて, HBCを用いたクラスタ検索が網羅検索に比べノイズ頑健性に優れていることを実証する.

抄録全体を表示

PDF形式でダウンロード (1664K)
日本語文章における表層表現と用例を用いた動詞の省略の補完

村田真樹, 長尾真

1998 年 5 巻 1 号 p. 119-133
発行日: 1998/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.5.119

ジャーナルフリー

抄録を表示する抄録を非表示にする

自然言語では, 動詞を省略するということがある. この省略された動詞を復元することは, 対話システムや高品質の機械翻訳システムの実現には不可欠なことである. そこで本研究では, この省略された動詞を表層の表現 (手がかり語) と用例から補完することを行なう. 解析のための規則を作成する際, 動詞の省略現象を補完する動詞がテキスト内にあるかいなかなどで分類した. 小説を対象にして実験を行なったところ, テストサンプルで再現率84%, 適合率82%の精度で解析できた. このことは本手法が有効であることを示している. テキスト内に補完すべき動詞がある場合は非常に精度が良かった. それに比べ, テキスト内に補完すべき動詞がない場合はあまり良くなかった. しかし, テキスト内に補完すべき動詞がない場合の問題の難しさから考えると, 少しでも解析できるだけでも価値がある. また, コーパスが多くなり, 計算機の性能もあがり大規模なコーパスが利用できるようになった際には, 本稿で提案した用例を利用する手法は重要になるだろう.

抄録全体を表示

PDF形式でダウンロード (1425K)

J-STAGEへの登録はこちら（無料）