Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第14回研究会
会議情報

セッション2:テキスト処理
重複レシピの検出における単語の分散表現と文字N-gramの分散表現の比較
小邦 将輝関 洋平平手 勇宇
著者情報
会議録・要旨集 フリー

p. 29-32

詳細
抄録

投稿型レシピサイトには,調理手順テキストなどの料理レシピの構成要素が他のレシピと同一のレシピ(重複レシピ)が存在する.本研究では,単語の分散表現間の距離に基づいて文書間の距離を算出する手法であるWord Mover's Distanceを文字3-gramの分散表現へと応用した手法を提案する.評価実験では,約121万件のレシピから単語の分散表現と文字3-gramの分散表現をSkip-gram Model with Negative Sampling, fastTextの2手法を用いて学習し,重複レシピペア候補を抽出する.そして,重複レシピペア候補へのアノテーションを行い,重複レシピ検出手法の評価を行う.実験の結果、単語の分散表現を用いた際には検出できなかった重複レシピが,文字3-gramの分散表現を用いることによって検出できることを確認した.

著者関連情報
2019 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top