自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
3 種類の辞書による自動単語分割の精度向上
森 信介小田 裕樹
著者情報
キーワード: 単語分割, 辞書, 単語列, 複合語
ジャーナル フリー

2011 年 18 巻 2 号 p. 139-152

詳細
抄録

本論文では,日本語の文の自動単語分割をある分野に適用する現実的な状況において,精度向上を図るための新しい方法を提案する.提案手法の最大の特徴は,複合語を参照することが可能な点である.複合語とは,内部の単語境界情報がなく,その両端も自動分割器の学習コーパスの作成に用いられた単語分割基準と必ずしも合致しない文字列である.このような複合語は,自然言語処理をある分野に適用する多くの場合に,利用可能な数少ない言語資源である.提案する自動単語分割器は,複合語に加えて単語や単語列を参照することも可能である.これにより,少ない人的コストでさらなる精度向上を図ることが可能である.
実験では,これらの辞書を参照する自動単語分割システムを最大エントロピー法を用いて構築し,それぞれの辞書を参照する場合の自動単語分割の精度を比較した.実験の結果,本論文で提案する自動単語分割器は,複合語や単語列を参照することにより,対象分野においてより高い分割精度を実現することが確認された.

著者関連情報
© 2011 言語処理学会
前の記事 次の記事
feedback
Top