2025 年 32 巻 1 号 p. 55-90
本研究では,日本語日常会話コーパス (CEJC) を Universal Dependencies 形式に変換した日本語話し言葉のツリーバンク UD_Japanese-CEJC を開発・構築したので,そのデータについて報告する.日本語日常会話コーパスは,日本語の様々な日常会話を収録した大規模な音声言語コーパスであり,単語区切りや品詞のアノテーションが含まれている.我々は,UD_Japanese-CEJC のために,CEJC の長単位形態論情報と文節係り受け情報を新たにアノテーションした.UD_Japanese-CEJC は日本語形態論情報と文節ベースの依存構造情報および CEJC から手作業で整備された変換ルールに従って構築した.構築した UD_Japanese-CEJC に対して,日本語書き言葉コーパスとの比較や UD 依存構造解析精度の評価をおこない,CEJC におけるUD構築に関する様々な問題点を検討した.