2023 年 30 巻 1 号 p. 4-29
Universal Dependencies (UD) は言語横断的に単語の依存構造に基づくツリーバンクを構築するプロジェクトである.全言語で統一した基準により,品詞・依存構造アノテーションデータの構築が 100 言語以上の言語について進められている.分かち書きをしない言語においては,基本単位となる構文的な語 (syntactic word) を規定する必要がある.従前の日本語の UD データは,形態論に基づく単位である国語研短単位を採用していた.今回,我々は新たに構文的な語に近い単語単位である国語研長単位に基づく日本語 UD である UD_Japanese-GSDLUW, UD_Japanese-PUDLUW,UD_Japanese-BCCWJLUW を構築したので報告する.