歴史的日本語資料を対象とした形態素解析

小木曽 智信; 小町 守; 松本 裕治

doi:10.5715/jnlp.20.727

抄録

単語情報がタグ付けされた本格的な通時コーパスを構築するためには，歴史的な日本語資料の形態素解析が必要とされるが，従来はこれを十分な精度で行うことができなかった．そこで，現代語用の UniDic に語彙の追加を行い，明治時代の文語文と平安時代の仮名文学作品のコーパスを整備することで，「近代文語 UniDic」と「中古和文 UniDic」を作成した．この辞書によりコーパス構築に利用可能な約 96～97% での解析が可能になった．この辞書の学習曲線をもとに歴史的資料の形態素解析辞書に必要な訓練用のタグ付きコーパスのサイズを調査した結果，約 5 万語のコーパスで精度 95% を超える実用的な解析が可能になること，5,000 語程度の少量であっても対象テキストの訓練コーパスを用意することが有効であることを確認した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）