日本ソフトウェア科学会大会講演論文集
Online ISSN : 1349-3515
ISSN-L : 0913-5391
日本ソフトウェア科学会第20回記念大会
セッションID: 2B-5
会議情報

XHTMLのスキーマ情報の抽出
*木村 智洋萩原 威志
著者情報
キーワード: XHTML, XML, スキーマ抽出
会議録・要旨集 フリー

詳細
抄録

XHTML(HTML)に含まれる情報を再利用するために要素の出現パターンや要素の構造を抽出することが求められている。W3Cで定義されたXHTMLのDTDスキーマはXHTMLの構造を表すものだが、XHTMLの言語としてのスキーマ情報であり、当然これを使うことはできない。あるXHTML文書単体に対するスキーマ情報に加えて意味的な構造を抽出する必要がある。また使用できる要素の名前は限定されており、同じ名前の要素でも違う意味のデータを表していることが多く、同名の要素と言うだけで同じ意味を持つと考えてはいけない。本稿では、要素のパスなどを利用することで異なる意味をもつであろう要素間を区別し、より正しい意味のスキーマ情報やパターンを抽出する。またより多く出現するパターンをグループ化することで抽出されるスキーマをよりコンパクトにする。

著者関連情報
© 2003 日本ソフトウェア科学会
前の記事 次の記事
feedback
Top