自然言語処理

ハードとソフトと言語

荻野綱男

1999 年6 巻7 号 p. 1-2
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_1

ジャーナルフリー

PDF形式でダウンロード (156K)
形態素解析結果から過分割を検出する統計的尺度

内山将夫

1999 年6 巻7 号 p. 3-28
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 形態素解析の結果から過分割 (正解が分割していないところを形態素解析システムが分割している個所) を検出するための統計的尺度を提案する. もし, 形態素解析の結果から過分割を検出できれば, それを利用して形態素解析結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく形態素解析システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が, 形態素解析システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.

抄録全体を表示

PDF形式でダウンロード (2602K)
コーパスからの日本語従属節係り受け選好情報の抽出およびその評価

宇津呂武仁, 西岡山滋之, 藤尾正和, 松本裕治

1999 年6 巻7 号 p. 29-60
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_29

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語の長文で一文中に従属節が複数個存在する場合, それらの節の間の係り受け関係を一意に認定することは非常に困難である. また, このことは, 日本語の長文を構文解析する際の最大のボトルネックの一つとなっている. 本論文では, 大量の構文解析済コーパスから, 統計的手法により, 従属節節末表現の間の係り受け関係を判定する規則を自動抽出する手法を提案する. 統計的手法として, 決定リストの学習の手法を用いることにより, 係り側・受け側の従属節の形態素上の特徴と, 二つの従属節のスコープが包含関係にあるか否かの間の因果関係を分析し, この因果関係を考慮して, 従属節節末表現の間の係り受け関係判定規則を学習する. また, EDR日本語コーパスから抽出した係り受け情報を用いて, 本論文の手法の有効性を実験的に検証した結果について述べる. さらに, 推定された従属節間の係り受け関係を, 統計的文係り受け解析において利用することにより, 統計的文係り受け解析の精度が向上することを示す.

抄録全体を表示

PDF形式でダウンロード (8720K)
日本語文と英語文における統語構造認識とマジカルナンバー7±2

村田真樹, 内元清貴, 馬青, 井佐原均

1999 年6 巻7 号 p. 61-71
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_61

ジャーナルフリー

抄録を表示する抄録を非表示にする

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.

抄録全体を表示

PDF形式でダウンロード (1125K)
局所的要約知識の自動獲得手法

加藤直人, 浦谷則好

1999 年6 巻7 号 p. 73-92
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_73

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語ニュースを局所的要約する際に必要となる要約知識を, コーパスから自動獲得する手法について述べる. 局所的要約とは注目個所の近傍の情報 (局所的情報) を用いて行なう要約をいう. 局所的情報には注目個所そのものやその前後の単語列などがある. 本手法では要約知識として置換規則と置換条件を用い, これらを原文一要約文コーパスから自動獲得する. はじめに原文中の単語と要約文中の単語のすべての組み合わせに対して単語間の距離を計算し, DPマッチングによって最適な単語対応を求める. その結果より, 置換規則は単語対応上で不一致となる単語列として獲得する. 一方, 置換条件は置換規則の前後のグラムの単語列として獲得する. 原文と要約文にそれぞれNHKニュース原稿とNHK文字放送の原稿を使って実際に要約知識を自動獲得し, 得られた要約知識を評価する実験を行った. その結果, 妥当な要約知識が獲得できることを確認した.

抄録全体を表示

PDF形式でダウンロード (4175K)
文字クラスモデルによる日本語単語分割

小田裕樹, 森信介, 北研二

1999 年6 巻7 号 p. 93-108
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_93

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.

抄録全体を表示

PDF形式でダウンロード (6054K)
連体形形容詞に先行する格助詞「が」「の」格の係りに関する体系的分析

菊池浩三, 伊東幸宏

1999 年6 巻7 号 p. 109-123
発行日: 1999/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.6.7_109

ジャーナルフリー

抄録を表示する抄録を非表示にする

長文の係り解析の精度向上は, 自然言語処理において重要な課題の一つである. 我々はすでに, 連体形形容詞周りの「が」「の」格に関して, 以下の3つのパターンに分類される7つの係りを規定するルールを見つけだした.
・前後の名詞のみで係りが決まる.
・前後の名詞と形容詞の関係で係りが決まる.
・形容詞そのものの属性で係りが決まる.
本論文では, 形容詞を網羅的に分析できるようにするために, 国立国語研究所での形容詞の体系的分類に従い分析対象形容詞を選択しその係りを調べた. それらの形容詞に対し7つのルールの妥当性を検証し拡張する. また, 対象形容詞を増やすことにより2つの新たなルールを検出することができた. これら, 分類を網羅するように選択した形容詞に対しても約95%の精度で係りを決めることができた.

抄録全体を表示

PDF形式でダウンロード (1403K)

J-STAGEへの登録はこちら（無料）