自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
SVMおよびTransductive SVMを用いた製品スペック情報の抽出
嶋田 和孝林 晃司遠藤 勉
著者情報
ジャーナル フリー

2005 年 12 巻 3 号 p. 43-66

詳細
抄録

ネットワークの普及により, 今までは紙面で伝えられていた情報の電子化が進んでいる.本稿では, それら電子化された情報の一つである, 製品のスペック情報の抽出について議論する.現在, 製品情報を収集し, 利用しているポータルサイトが数多く存在するため, 膨大なwebページの中から製品のスペック情報を的確に抽出することは, そのようなポータルサイトの自動構築のために大きな意義を持つ.製品のスペック情報は, 殆どの場合, 表形式で記述されている.web上の表はHTMLの〈TABLE〉タグを用いて記述されるが, 〈TABLE〉タグは表を記述する以外にも, レイアウトを整えたりする場合に頻繁に用いられる.ある特定の領域においては, 〈TABLE〉の70%がレイアウト目的で使われているとの報告もある.そのため, HTML文書中の〈TABLE〉タグが表なのか, それとも他の目的で使用されているのかを判別する必要がある.提案手法では, Support Vector Machines (SVM) を用いて, Webページ中に存在する表領域が製品スペックかどうかの判定を行う.Transductive SVMを用いて, 訓練データの削減についても考察する.パソコン, デジタルカメラ, プリンタの3種類の製品について, 実験を行い, それぞれの製品について高い再現率と適合率を得た.訓練データが少ない場合, Transductive SVMを用いた手法の方が, 通常のSVMと比べ, 精度が改善されることを確認した.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top