/ プログラム / 発表一覧 / 著者一覧 / jsai2008 ホーム

3E2-01 キーワードの特性を利用したスパムブログの収集と分析

6月13日(金) 10:40〜12:00 E会場
Webインテリジェンス 3

演題番号3E2-01
題目キーワードの特性を利用したスパムブログの収集と分析
著者佐藤 有記 (筑波大学大学院システム情報工学研究科)
宇津呂 武仁 (筑波大学大学院システム情報工学研究科)
福原 知宏 (東京大学人工物工学研究センター)
河田 容英 ((株)ナビックス)
村上 嘉陽 ((株)ナビックス)
中川 裕志 (東京大学情報基盤センター図書館電子化部門)
神門 典子 (国立情報学研究所)
時間6月13日(金) 10:40〜11:00
概要本研究では,ブログにおいて検索頻度の高いキーワードを主として狙ったスパムブログの問題についての分析を行うことを主目的として,スパムブログデータセットを作成し,スパムブログの分析を進めている.スパムブログデータセットの作成においては,まず,キーワードによって検索されるブログサイトの生起数の推移を観測することによってバースト現象を確認し,バースト日において特に一日の投稿記事数の多いブログサイトを中心にブログサイトの収集を行う.次に,これらのブログサイトに対してスパム・非スパムの識別作業を行うともに,スパムブログに対して,アフィリエイトサイトへのリンクの形態や,ブログ本文中のテキストのコピー元の分類,コピーの際の文書収集手順の分類等のいくつかの観点からスパムブログの類型化を行う.また,同一のスパマーが作成していると思われるスパムブログに対するスパマーの識別結果を付与する.以上の情報を考慮して,スパムブログデータセットを作成する.
論文PDFファイル

/ プログラム / 発表一覧 / 著者一覧 / jsai2008 ホーム