人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 3Yin2-17
会議情報

Invariant Information Clusteringを用いた教師なしテキストセグメンテーションの提案
*川崎 拳人
著者情報
会議録・要旨集 フリー

詳細
抄録

テキストセグメンテーションはテキストをトピックに応じて分割する手法である。文書の検索、要約、抽出などの自然言語処理タスクを支える重要な技術であり、非構造化データの活用に向けて期待されている。初期のテキストセグメンテーションは、教師なし手法が研究されていたが、その多くがヒューリスティックであり、ドメイン固有の知識に基づくテキスト分割や様々な粒度のテキスト分割に課題があった。近年では深層学習ベースの教師あり手法が提案され、文脈を考慮した特徴量を用いることで高精度なセグメンテーションを実現しているが、アノテーションコストがかかるため、その適用範囲は限られている。そこで本研究では、深層学習ベースの教師なし手法を提案する。具体的には、Transformerをベースとしたネットワークに近年画像分野での成功が報告されているInvariant Information Clusteringを導入し、様々な粒度のテキスト分割が可能なクラスタリングアプローチの手法を構築した。そして、求人情報を含むメール文書のテキストセグメンテーションにおいて、従来の教師なし手法よりもエラー率が低いことを示す。

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top