人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 2Win5-33
会議情報

LLMを用いたウェブページ分類によるクローリング支援
*笹沢 裕一十河 泰弘
著者情報
会議録・要旨集 フリー

詳細
抄録

クローラはウェブページを収集するためのシステムであり,新着ページを効率的に収集するには適切なアルゴリズムを用いる必要がある.XMLサイトマップなどのサイト機能や過去のページ更新頻度は新着ページ収集のための重要な手掛かりであるが,様々な条件において汎用的に使用するのは難しい.本研究では大規模言語モデル(LLM)を用いてウェブページを「インデックスページ」と「コンテンツページ」の2種類に分類し,インデックスページを起点とすることで新着ページを効率的に取得する手法を提案する.実験ではページ種類が自動アノテートされたデータセットを構築し,ページ種類の分類性能および新着ページの収集網羅率の2つの観点で評価を行った.実験結果により,LLMによってベースライン手法と比較して両方の評価観点で高い性能を達成することを確認した.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top