人工知能学会全国大会論文集
Online ISSN : 2758-7347
第25回 (2011)
セッションID: 3F3-5
会議情報

ウェブページ内の階層構造を考慮した本文抽出技術
*藤田 尚樹安田 宜仁片渕 典史片岡 良治
著者情報
会議録・要旨集 フリー

詳細
抄録

ウェブページは広告などページの主題以外の情報を含み,それらは例えば検索エンジンの検索精度低下を引き起こす。そのため本文抽出技術は重要視されている.本稿ではHTML中で本文(主題が記述されている部分)は1つもしくは複数のノード配下の全てのノードとして抽出できるという仮説のもと,CRFを用いた本文判定結果を階層構造を考慮して上位ノードの結果と下位ノードの結果の多数決で再判定する手法を提案する.

著者関連情報
© 2011 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top