自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
日本語談話関係解析:タスク設計・談話標識の自動認識・ コーパスアノテーション
岸本 裕大村脇 有吾河原 大輔黒橋 禎夫
著者情報
ジャーナル フリー

2020 年 27 巻 4 号 p. 889-931

詳細
抄録

談話関係解析は自然言語処理の基盤的な解析の一つであるが,日本語におけるコーパスベースの談話関係解析の研究はほとんどない.本研究では日本語の談話関係解析を実用化するため,日本語の談話関係タグ付きコーパスを構築する.日本語の談話関係タグ付きコーパスでは,談話単位,談話標識,談話関係タグの3項目をアノテーションする.その際,高速にコーパスを構築するため,以下の4つの手法を採用する.(1) Web ページの冒頭3文を収集したコーパスにアノテーションする.(2) 談話関係タグセットは2階層7種類とする.(3) 談話単位と談話標識は自動認識する.(4) 熟練のアノテータによる小規模・高品質なものとクラウドソーシングを用いた大規模なものの 2 種類のアノテーションを実施する.構築したコーパスを分析した結果,クラウドソーシングを用いたものは改善の余地があることが分かった.構築した談話関係タグ付きコーパスを用いて,談話関係解析器を訓練する.実験の結果,タグ付きコーパスが機械学習ベースの解析モデルの学習に有効であることが分かった.また,明示的な談話関係に限れば,本研究で整備した談話標識の自動認識が高精度な解析器として利用可能であることを示した.本研究で構築した日本語談話関係タグ付きコーパスは公開し,談話単位と談話標識の自動認識器は日本語構文・格解析器KNPに実装されている.

著者関連情報
© 2020 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top