自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
決定リストを弱学習器としたアダブーストによる日本語単語分割
新納 浩幸
著者情報
ジャーナル フリー

2001 年 8 巻 2 号 p. 3-18

詳細
抄録
本論文では決定リストを弱学習器としたアダブーストによる日本語単語分割法を提案する. 日本語単語分割は, 入力文の各文字の間に単語区切りを置くか置かないかの問題とみなすことで, 分類問題として定式化できる. この分類問題を決定リストを利用して解くことで単語分割が行える. ここでは決定リストで利用する属性に辞書情報を含めない. そのためここでの単語分割は未知語の問題を受けないという長所がある. 更に単語分割を分類問題として解く場合, 近年研究の盛んなアダブーストの手法を適用できる. アダブーストを用いることで, 決定リストの精度を高めることができる. 実験では, 京大コーパス (約4万文) を利用して決定リストを作成した. この決定リストによる単語分割の正解率は97.52%であった. この値は、同じ訓練データから構築したtri-gramモデルに基づく単語分割法での正解率92.76%を大きく上回った. またアダブーストを利用することで精度が98.49%にまで向上させることができた. また作成した単語分割システムは未知語の検出能力が高いことも確認できた.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top