自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
技術資料
構文・照応・評価情報つきブログコーパスの構築
橋本 力黒橋 禎夫河原 大輔新里 圭司永田 昌明
著者情報
ジャーナル フリー

2011 年 18 巻 2 号 p. 175-201

詳細
抄録
近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者関連情報
© 2011 言語処理学会
前の記事
feedback
Top