自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
歴史的日本語資料を対象とした形態素解析
小木曽 智信小町 守松本 裕治
著者情報
ジャーナル フリー

2013 年 20 巻 5 号 p. 727-748

詳細
抄録

単語情報がタグ付けされた本格的な通時コーパスを構築するためには,歴史的な日本語資料の形態素解析が必要とされるが,従来はこれを十分な精度で行うことができなかった.そこで,現代語用の UniDic に語彙の追加を行い,明治時代の文語文と平安時代の仮名文学作品のコーパスを整備することで,「近代文語 UniDic」と「中古和文 UniDic」を作成した.この辞書によりコーパス構築に利用可能な約 96~97% での解析が可能になった.この辞書の学習曲線をもとに歴史的資料の形態素解析辞書に必要な訓練用のタグ付きコーパスのサイズを調査した結果,約 5 万語のコーパスで精度 95% を超える実用的な解析が可能になること,5,000 語程度の少量であっても対象テキストの訓練コーパスを用意することが有効であることを確認した.

著者関連情報
© 2013 言語処理学会
前の記事
feedback
Top