自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
文字クラスモデルによる日本語単語分割
小田 裕樹森 信介北 研二
著者情報
ジャーナル フリー

1999 年 6 巻 7 号 p. 93-108

詳細
抄録

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top