抄録
WWW上に公開されている大量の英文書を分類することで,大規模な母語話者コーパス(良質な英文書群)および非母語話者コーパス(誤りや不自然な表現を含む英文書群)を構築できる.われわれは,教育的な観点から,これらのコーパスを用いて非母語話者に特有の英語表現を抽出することを目指している. 基本的には,非母語話者コーパスのみに現れ,母語話者コーパスに現れない表現を抽出する.しかし,どれだけ大規模な母語話者コーパスを用いても,すべての自然な英語表現が含まれているとはいえない.また,コーパス構築時に誤識別された文書の影響を考慮する必要がある.本発表では,これらの問題に対処した抽出手法を提案する.