自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
作文履歴をトレース可能な子供コーパスの構築
永田 亮河合 綾子須田 幸次掛川 淳一森広 浩一郎
著者情報
ジャーナル フリー

2010 年 17 巻 2 号 p. 2_51-2_65

詳細
抄録

自然言語処理や言語学においてコーパスは重要な役割を果たすが,従来のコーパスは大人の文章を集めたコーパスが中心であり,子供の文章を集めたコーパスは非常に少ない.その理由として,子供のコーパスに特有の様々な難しさが挙げられる.そこで,本論文では,子供のコーパスを構築する際に生じる難しさを整理,分類し,効率良く子供のコーパスを構築する方法を提案する.また,提案方法で実際に構築した「こどもコーパス」についても述べる.提案方法により,81人分(39,269形態素)のコーパスを構築することができ,提案方法の有効性を確認した.この規模は,公開されている日本語書き言葉子供コーパスとしては最大規模である.また,規模に加えて,「こどもコーパス」は作文履歴がトレース可能であるという特徴も有する.

著者関連情報
© 2010 言語処理学会
前の記事
feedback
Top