人工知能学会全国大会論文集
Online ISSN : 2758-7347
第22回 (2008)
セッションID: 3E2-1
会議情報

キーワードの特性を利用したスパムブログの収集と分析
*佐藤 有記宇津呂 武仁福原 知宏河田 容英村上 嘉陽中川 裕志神門 典子
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では,ブログにおいて検索頻度の高いキーワードを主として狙ったスパ ムブログの問題についての分析を行うことを主目的として,スパムブログデー タセットを作成し,スパムブログの分析を進めている.スパムブログデータセッ トの作成においては,まず,キーワードによって検索されるブログサイトの生 起数の推移を観測することによってバースト現象を確認し,バースト日におい て特に一日の投稿記事数の多いブログサイトを中心にブログサイトの収集を行 う.次に,これらのブログサイトに対してスパム・非スパムの識別作業を行う ともに,スパムブログに対して,アフィリエイトサイトへのリンクの形態や, ブログ本文中のテキストのコピー元の分類,コピーの際の文書収集手順の分類等の いくつかの観点からスパムブログの類型化を行う.また,同一のスパマーが作成 していると思われるスパムブログに対するスパマーの識別結果を付与する. 以上の情報を考慮して,スパムブログデータセットを作成する.

著者関連情報
© 2008 社団法人 人工知能学会
前の記事 次の記事
feedback
Top