投稿型レシピサイトには,調理手順テキストなどの料理レシピの構成要素が他のレシピと同一のレシピ(重複レシピ)が存在する.本研究では,単語の分散表現間の距離に基づいて文書間の距離を算出する手法であるWord Mover's Distanceを文字3-gramの分散表現へと応用した手法を提案する.評価実験では,約121万件のレシピから単語の分散表現と文字3-gramの分散表現をSkip-gram Model with Negative Sampling, fastTextの2手法を用いて学習し,重複レシピペア候補を抽出する.そして,重複レシピペア候補へのアノテーションを行い,重複レシピ検出手法の評価を行う.実験の結果、単語の分散表現を用いた際には検出できなかった重複レシピが,文字3-gramの分散表現を用いることによって検出できることを確認した.
抄録全体を表示