主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
消費者に入力を依頼する形で収集した購買履歴データは多様な小売店舗での購買行動を分析するために有用な情報源の一つである.しかし,顧客により入力されたデータの場合,メーカー名や商品名などの文字データにおいて略称や長音符の有無など表記ゆれが発生し,分析上のノイズになることが多い. その修正手法として編集距離や埋め込み表現を用いた名寄せ手法がある.しかし従来の編集距離を用いた手法では表意文字である日本語の特徴を考慮することができず,また文字数が少ない商品ブランド名に対して従来の埋め込み表現の活用が難しいという課題がある.大規模自然言語モデルの活用も考えられるが,秘密保持や精度,費用等の問題が発生するため,適用が困難であることが考えられる. そこで本研究では1文字単位の埋め込み表現を得るchar2vecを提案し,さらにその埋め込み表現を活用した編集距離を新たに定義することで,文字数が少ない名称データに対しても適用可能な名寄せ手法を提案する. 本研究では,実データに提案手法を適用することで提案手法の有効性を示し,さらに名寄せ後のデータを用いることで多様な分析が可能になることを示す.