自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
日本語日常会話コーパスのUniversal Dependencies: UD_Japanese-CEJC
大村 舞若狭 絢松田 寛浅原 正幸
著者情報
ジャーナル フリー

2025 年 32 巻 1 号 p. 55-90

詳細
抄録

本研究では,日本語日常会話コーパス (CEJC) を Universal Dependencies 形式に変換した日本語話し言葉のツリーバンク UD_Japanese-CEJC を開発・構築したので,そのデータについて報告する.日本語日常会話コーパスは,日本語の様々な日常会話を収録した大規模な音声言語コーパスであり,単語区切りや品詞のアノテーションが含まれている.我々は,UD_Japanese-CEJC のために,CEJC の長単位形態論情報と文節係り受け情報を新たにアノテーションした.UD_Japanese-CEJC は日本語形態論情報と文節ベースの依存構造情報および CEJC から手作業で整備された変換ルールに従って構築した.構築した UD_Japanese-CEJC に対して,日本語書き言葉コーパスとの比較や UD 依存構造解析精度の評価をおこない,CEJC におけるUD構築に関する様々な問題点を検討した.

著者関連情報
© 2025 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top