LLMを用いたウェブページ分類によるクローリング支援

笹沢 裕一; 十河 泰弘

doi:10.11517/pjsai.JSAI2025.0_2Win533

抄録

クローラはウェブページを収集するためのシステムであり，新着ページを効率的に収集するには適切なアルゴリズムを用いる必要がある．XMLサイトマップなどのサイト機能や過去のページ更新頻度は新着ページ収集のための重要な手掛かりであるが，様々な条件において汎用的に使用するのは難しい．本研究では大規模言語モデル（LLM）を用いてウェブページを「インデックスページ」と「コンテンツページ」の2種類に分類し，インデックスページを起点とすることで新着ページを効率的に取得する手法を提案する．実験ではページ種類が自動アノテートされたデータセットを構築し，ページ種類の分類性能および新着ページの収集網羅率の2つの観点で評価を行った．実験結果により，LLMによってベースライン手法と比較して両方の評価観点で高い性能を達成することを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）