2020 年 27 巻 4 号 p. 889-931
談話関係解析は自然言語処理の基盤的な解析の一つであるが,日本語におけるコーパスベースの談話関係解析の研究はほとんどない.本研究では日本語の談話関係解析を実用化するため,日本語の談話関係タグ付きコーパスを構築する.日本語の談話関係タグ付きコーパスでは,談話単位,談話標識,談話関係タグの3項目をアノテーションする.その際,高速にコーパスを構築するため,以下の4つの手法を採用する.(1) Web ページの冒頭3文を収集したコーパスにアノテーションする.(2) 談話関係タグセットは2階層7種類とする.(3) 談話単位と談話標識は自動認識する.(4) 熟練のアノテータによる小規模・高品質なものとクラウドソーシングを用いた大規模なものの 2 種類のアノテーションを実施する.構築したコーパスを分析した結果,クラウドソーシングを用いたものは改善の余地があることが分かった.構築した談話関係タグ付きコーパスを用いて,談話関係解析器を訓練する.実験の結果,タグ付きコーパスが機械学習ベースの解析モデルの学習に有効であることが分かった.また,明示的な談話関係に限れば,本研究で整備した談話標識の自動認識が高精度な解析器として利用可能であることを示した.本研究で構築した日本語談話関係タグ付きコーパスは公開し,談話単位と談話標識の自動認識器は日本語構文・格解析器KNPに実装されている.