『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用

小木曽 智信; 中村 壮範

doi:10.5715/jnlp.21.301

抄録

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり，17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている．このコーパスの構築を目的としてアノテーションのためのシステムが開発された．このシステムは，辞書見出しデータベースと，タグ付けされたコーパスとを関連付けて，整合性を保ちつつ多くの作業者が編集していくことを可能にするものである．このシステムは，関係データベースで構築されたサーバ「形態論情報データベース」と，辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」，形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る．本稿はこのデータベースシステムの設計・実装・運用について論ずる．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）