2020 年 27 巻 1 号 p. 3-30
本論文では,日本語係り受け解析器に対する追加訓練の効果を複数のドメインにわたって俯瞰的に調べた結果を報告する.この分析のために,適応先ドメインデータを利用した追加訓練の前後それぞれの誤りを収集し,解析器の内部状態から得られる,密な実数値ベクトルで表現された係り受け誤りの埋め込み表現に対してクラスタリングを行った.得られたクラスタに対する定量的・定性的分析を通じて,係り受け誤りの種類や頻度を,複数の適応先ドメインにわたって,包括的に把握することができた.特に,追加訓練の効果が強く見られたクラスタや,効果が薄かったクラスタについて,それらに属する誤りを観察することで,追加訓練に関するドメインごとの特徴に関する仮説を立て,コーパス上の統計量によって検証するという分析の流れが効率化された.分析の結果から,追加訓練の主要な効果は,類似した文型に対する正しい構文構造の分布がドメイン間で異なることを学習することであるという示唆を得た.