抄録
Web上の情報が増加しつづける中で,Yahoo!やExciteなどのようなWebページをカテゴリ分類しているポータルサイトの需要が高まっている.しかし,これらのサイトのカテゴリは人手によるもので,膨大な量のWebページに対応することはできない.そのため,自動分類の研究がなされてきた.近年では,分類対象となるページそのものを分析するのではなく,そのページにリンクしているページを用いる研究が注目されている.既存の研究では,ページのフォーマットに関わらず,一定の方法でアンカー周辺のテキストを抽出し分類に用いていた.そこで本研究では,ページのフォーマットによってテキスト部分の抽出方法を変えることで,より意味のあるテキスト部分を抽出し,より精度の高い自動分類を目指す.