主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
近年,深層埋め込みクラスタリングは,非線形データに対する効果的なクラスタリング手法として注目されている.この手法は,高次元データから有用な低次元表現を抽出することを目的としている.画像のような非構造化データに適した深層埋め込みクラスタリングを,構造化された表形式データへの適用を可能とした手法にGaussian Cluster Embedding in Autoencoder Latent Space(G-CEALS)がある.この手法は,多変量ガウシアンクラスタ分布を学習するフレームワークによって,表形式データに対する埋め込みクラスタリングを可能としている.しかし,名義尺度などの質的データを含むデータは想定しておらず,その効果は限定的である.そこで,本研究では,質的データが多く含まれる表形式データに対する新しいクラスタリング手法を提案する.具体的には,大規模言語モデルを用い,表形式データを文章変換した後,埋め込みモデルを用いてその文章から埋め込み表現を得る.この埋め込みを活用した深層学習により,質的データを含むデータセットでも効果的なクラスタリングを実現する.