主催: 社団法人 人工知能学会
会議名: 2008年度人工知能学会全国大会(第22回)
回次: 22
開催地: 北海道旭川市 ときわ市民ホール等
開催日: 2008/06/11 - 2008/06/13
本研究では,ブログにおいて検索頻度の高いキーワードを主として狙ったスパ ムブログの問題についての分析を行うことを主目的として,スパムブログデー タセットを作成し,スパムブログの分析を進めている.スパムブログデータセッ トの作成においては,まず,キーワードによって検索されるブログサイトの生 起数の推移を観測することによってバースト現象を確認し,バースト日におい て特に一日の投稿記事数の多いブログサイトを中心にブログサイトの収集を行 う.次に,これらのブログサイトに対してスパム・非スパムの識別作業を行う ともに,スパムブログに対して,アフィリエイトサイトへのリンクの形態や, ブログ本文中のテキストのコピー元の分類,コピーの際の文書収集手順の分類等の いくつかの観点からスパムブログの類型化を行う.また,同一のスパマーが作成 していると思われるスパムブログに対するスパマーの識別結果を付与する. 以上の情報を考慮して,スパムブログデータセットを作成する.