自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用
小木曽 智信中村 壮範
著者情報
ジャーナル フリー

2014 年 21 巻 2 号 p. 301-332

詳細
抄録

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.

著者関連情報
© 2014 言語処理学会
前の記事 次の記事
feedback
Top