本稿では商品の属性値抽出タスクにおけるエラー分析のひとつの事例研究について報告する.具体的には,属性値辞書を用いた単純な辞書マッチに基づく属性値抽出システムを構築し,人手により属性値がアノテーションされたコーパスに対してシステムを適用することで明らかとなる False-positive, False-negative 事例の分析を行った.属性値辞書は商品説明文に含まれる表や箇条書きなどの半構造化データを解析することで得られる自動構築したものを用いた.エラー分析は実際のオンラインショッピングサイトで用いられている 5 つの商品カテゴリから抽出した 100 商品ページに対して行った.そして分析を通してボトムアップ的に各事例の分類を行ってエラーのカテゴリ化を試みた.本稿ではエラーカテゴリおよびその実例を示すだけでなく,誤り事例を無くすために必要な処理・データについても検討する.
抄録全体を表示