主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
テ形従属節は日本語に頻出する表現であり、複数の用法がある。その用法を計算機で判定することは自然言語処理分野の重要なタスクと言える。そこで本研究では、テ形従属節の用法分類とアノテーションガイドラインの設計を行った。テ形従属節の用法については日本語学分野でさまざまな分類が提案されている。しかし、それらの分類で説明された用法ごとの特徴や例文をそのまま用いてアノテーションガイドラインの作成を試みると、非専門家である作業者にとって判断が難しかったり、複数の用法がアノテーションされたりするという問題点がある。そのため本研究では言語学的テストを用いたアノテーションガイドラインを設計する。言語学的テストとは対象表現が言い換え可能かなどを判定するもので、 それによってアノテーション時の判断が揺れにくくなるとされている。アノテーション時にはガイドラインの言語学的テストを適用することでテ形従属節の出現の用法を判定し、用法タグを付与した。さらに、このようにして構築したコーパスをもとに、BERTを用いて用法判定器を学習する。