主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
テキストセグメンテーションはテキストをトピックに応じて分割する手法である。文書の検索、要約、抽出などの自然言語処理タスクを支える重要な技術であり、非構造化データの活用に向けて期待されている。初期のテキストセグメンテーションは、教師なし手法が研究されていたが、その多くがヒューリスティックであり、ドメイン固有の知識に基づくテキスト分割や様々な粒度のテキスト分割に課題があった。近年では深層学習ベースの教師あり手法が提案され、文脈を考慮した特徴量を用いることで高精度なセグメンテーションを実現しているが、アノテーションコストがかかるため、その適用範囲は限られている。そこで本研究では、深層学習ベースの教師なし手法を提案する。具体的には、Transformerをベースとしたネットワークに近年画像分野での成功が報告されているInvariant Information Clusteringを導入し、様々な粒度のテキスト分割が可能なクラスタリングアプローチの手法を構築した。そして、求人情報を含むメール文書のテキストセグメンテーションにおいて、従来の教師なし手法よりもエラー率が低いことを示す。