主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
大規模文字列集合データをコンピュータ上に効率的に表現し処理することは、文字列集合の索引化やデータマイニングなど幅広い応用において重要である。Loekitoらが提案した系列二分決定グラフ(Sequence BDD、SeqBDD)は文字列集合を効率的に表現するデータ構造であり、文字列集合データを圧縮したまま豊富な演算を適用できる特徴をもつ。本研究では、大規模文字列集合データを保持するテキストデータを入力とし、その文字列集合を表現するSeqBDDをボトムアップに高速に構築する手法を提案する。文字列を逐次的に和集合演算により追加する既存手法と比べ、提案手法は多くの場合に高速に動作し、特に共通する接頭辞をもつ文字列が集合内に多く出現するような入力に対してより効果的である。本発表では、提案アルゴリズムについて述べ、様々なデータセットを用いてその有効性を評価した結果を示す。