言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

澤田 一正; 沖本 祐典; 金森 研太; 野田 五十樹; 小山 聡; 宰川 潤二

doi:10.11517/pjsai.JSAI2023.0_2E4GS603

抄録

施設や店舗などといったPOI(Point of Interest)を扱うサービスにおいて，POIの業種情報を保有し，その業種情報が正確であることは重要である．正確な業種情報を多くのPOIで得るためには，機械学習を用いて名称や口コミなどのPOIの情報から予測することが有用である．近年，マルチモーダルな深層モデルが多くのタスクで高い性能を示すことが報告されており，POIの業種予測においても有用であることが期待される．本研究では，名称や口コミなどの言語情報とユーザーの投稿画像などの画像情報を入力とする，マルチモーダルな POI の業種予測のための深層モデルを提案する．提案モデルでは，画像情報を有効に用いるため，(1)言語情報のみを用いた予測に対する損失の導入(2)POIごとに複数の画像を入力するためのPoolingの導入，の2点の工夫を行っている．ヤフー株式会社が保有するPOIデータベースから飲食店のデータセットを作成し，それを用いて評価を行ったところ，言語情報や画像情報のみを用いるベースラインに比べて，提案手法で業種予測の性能の改善が確認された．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）