人工知能学会全国大会論文集
Online ISSN : 2758-7347
第21回 (2007)
セッションID: 2G4-2
会議情報

複数のWeb Wrapperを用いた実用的な情報抽出
*植松 幸生内山 俊郎片岡 良治松井 藤五郎大和田 勇人
著者情報
会議録・要旨集 フリー

詳細
抄録

本稿は大量にあるWeb ページから有用な情報を抽出するWeb Wrapper(以下ラッパ) において実用的な方法を提案する.従来のラッパの研究では抽出器が単一のラッパで構成される事を前提としていた.しかしながら,単一のラッパでは抽出器の表現力が乏しく,あるページ内における小さなレイアウトの変化に適応できないため,ラッパの生成に失敗する事があった.本研究ではラッパを複数のラッパで構成するために特殊ラッパと呼ぶラッパを定義し,ラッパを複数の特殊ラッパで表現することで,今まで正確に抽出する事が困難だったページに対しても抽出可能である事を確認した.

著者関連情報
© 2007 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top