自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
『現代日本語書き言葉均衡コーパス』に対する時間情報アノテーション
小西 光浅原 正幸前川 喜久雄
著者情報
ジャーナル フリー

2013 年 20 巻 2 号 p. 201-221

詳細
抄録

時間情報表現は,テキスト中に記述される事象の生起時刻を推定するための重要な手がかりである.時間情報表現を含む数値表現の抽出は,固有表現抽出の部分問題として解かれてきた.英語においては,評価型国際会議が開かれ,時間情報表現のテキストからの切り出しだけではなく,曖昧性解消・正規化のための様々な手法が提案されている.さらに,時間情報と事象とを関連づけるアノテーション(タグづけ)基準 TimeML の定義や新聞記事にアノテーションを行ったコーパス TimeBank の整備が進んでいる.一方,日本語においては時間情報処理に必要なアノテーション基準の定義及びコーパスの整備が進んでいない.本稿では,TimeML の時間情報表現を表す 〈TIMEX3〉 タグに基づいた時間情報のアノテーション基準を日本語向けに再定義し,『現代日本語書き言葉均衡コーパス』(BCCWJ) コアデータの一部にアノテーションを行った.問題点を検討し,今後事象の生起時刻を推定するために必要な課題を考察する.

著者関連情報
© 2013 言語処理学会
前の記事 次の記事
feedback
Top