主催: 日本ソフトウェア科学会
XHTML(HTML)に含まれる情報を再利用するために要素の出現パターンや要素の構造を抽出することが求められている。W3Cで定義されたXHTMLのDTDスキーマはXHTMLの構造を表すものだが、XHTMLの言語としてのスキーマ情報であり、当然これを使うことはできない。あるXHTML文書単体に対するスキーマ情報に加えて意味的な構造を抽出する必要がある。また使用できる要素の名前は限定されており、同じ名前の要素でも違う意味のデータを表していることが多く、同名の要素と言うだけで同じ意味を持つと考えてはいけない。本稿では、要素のパスなどを利用することで異なる意味をもつであろう要素間を区別し、より正しい意味のスキーマ情報やパターンを抽出する。またより多く出現するパターンをグループ化することで抽出されるスキーマをよりコンパクトにする。