2008 年 4 巻 1 号 p. 82-95
国立国語研究所では、文科省科研費特定領域研究「日本語コーパス」との共同事業として、2006年度から5年計画で、現代日本語を対象とした1億語規模の『現代日本語書き言葉均衡コーパス』(略称BCCWJ)の構築を進めている。本稿の前半では、均衡コーパスとは何かを解説した後、国語研によるコーパス整備計画であるKOTONOHA計画を紹介する。これは、明治から現代にいたる日本語の書き言葉・話し言葉の全体を把握するために、複数のコーパスを順次構築しようという計画である。本稿の後半ではBCCWJに特化した解説をおこなう。BCCWJを構成する3種類のサブコーパスの関係に注目してHCCWJの基本設計を紹介した後、サンプル長と語の単位の問題に触れる。次いでこれまでによく受けた質問に対する回答を列記し、最後に実装作業の進捗状況と著作権処理に係る問題点を指摘した。