人工知能学会第二種研究会資料
Online ISSN : 2436-5556
Webコンテンツの機能に着目した検索結果の構造化に関する提案-アンカテキストを用いたWebコンテンツ形式の推定-
川前 徳章高橋 克巳
著者情報
研究報告書・技術報告書 フリー

2004 年 2004 巻 SWO-005 号 p. 10-

詳細
抄録

本研究はユーザの情報検索を効率化することを目的として、情報検索システムの検索結果を構造化するための手法を提案する。一般にWeb空間における大半のコンテンツは構造化されておらず、その機能も異なっている。それにも関わらず、従来の情報検索システムは、構造化されたデータの検索を前提としたキーワードマッチング技術を用い、ユーザの入力したクエリに対し、そのクエリを含むデータの一覧をランキングという一次元の属性で表示していた。その結果として、それらWebコンテンツの集合である情報検索システムの検索結果もまた構造化されないため、ユーザは検索結果から必要なコンテンツを探す負担が生じ、情報検索は非効率になるという問題がある。本研究は、この問題を解決するために、検索結果の構造化を実現する手法を提案する。この提案では、Webコンテンツのカテゴリ、機能、形式、作成者、作成日時の五つの属性を持つように構造化し、これらの属性を抽出する。提案手法は、リンク元のWebコンテンツはリンク先のWebコンテンツに対してのアンカテキストを付けているWeb空間のハイパリンク構造に着目し、Webコンテンツの形式の推定を行う。この形式及びWebコンテンツの作成者、作成日時の抽出によって検索結果が構造化されるため、自身の目的に合ったWebコンテンツの情報検索が効率化されるだけでなく、Webコンテンツを活用した情報抽出が容易になることが期待できる。

著者関連情報
© 2004 著作者
前の記事 次の記事
feedback
Top