Vol.20 No.1 (2005/01) Web構造マイニングとWeb視覚化


私のブックマーク

Web構造マイニングとWeb視覚化

村田剛志(国立情報学研究所)

1.はじめに

Webデータにおけるパターン発見をデータマイニング技術を用いて行なうことをWebマイニングと呼ぶ。Webマイニングは、自然言語処理や機械学習、データマイニングなどの人工知能の分野にとどまらず、情報検索やデータベースなど幅広い分野と関連する複合的な研究分野である。
注目するWebデータの種類によって、Webマイニングは以下の3つに分類される。

1) Webページのコンテンツに注目し、自然言語処理やデータベースのアプローチを用いて、テキストマイニングによる情報抽出や半構造データにおける検索のモデル化などを目指すWeb内容マイニング

2) Webページ間を結ぶハイパーリンクによって構成されるグラフ構造に注目し、関連ページの発見や重要ページのランキング、グラフ構造のモデル化などを目指すWeb構造マイニング

3) Webページの閲覧によって生じる(サーバー側やクライアント側の)ログデータに注目し、ユーザプロファイルの学習やサイトにおける閲覧パターンの学習などを目指すWeb利用マイニング

Webマイニングという言葉は1990年代後半から用いられてきたが、上記の3つを意味する言葉として定着してきたのは2000年頃からである。Webマイニングのサーベイとしては以下の記事がある。

Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey (2000)

Webマイニングは非常に幅広い研究分野であり、上記の3つ全てをカバーすることは難しい。Web内容マイニングについては、長谷川隆明氏による「私のブックマーク テキストマイニング」や特集「WWW上の情報の知的アクセスのためのテキスト処理」人工知能学会誌 Vol.19, No.3, pp.295-323 (2004)にテキストマイニングに関して紹介されている。またWeb利用マイニングについては、データマイニング全般に関する無償・商用のソフトウエアや関連会社等の情報を幅広く紹介している
KDNuggetsにおけるソフトウエア紹介
や、WebKDD Workshopが参考になると思われる。
本稿では、Web構造マイニングと、Web構造理解の支援となることが期待されるWeb視覚化について、関連サイトを紹介する。

2.Web構造マイニング

Web構造マイニングの入門的な解説としては、

「人工知能の話題 Web構造マイニング」

を参照していただきたい。Web構造マイニングの目的としては、以下のようなものがあげられる。それぞれについて関連サイトを紹介する。

(1)ランキングアルゴリズム

検索結果のページをその重要度に応じてランキングするためのアルゴリズムとして、検索エンジンGoogleが採用しているPageRankが有名である。

Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web. (1998)

日本語によるものとしては、京都大学の馬場氏によるPageRankの解説が詳しい。

「Google の秘密 – PageRank 徹底解説」

このようなリンクベースのランキングアルゴリズムの普及に対応して、その性質についての様々な分析がなされてきている。例えばblogサイトにおいては、トラックバックなどによって相互リンクが張られることが多いため、PageRank値が比較的高くなることが指摘されている。
また、検索エンジンの性質を利用して自己のサイトが検索結果の上位に配置されることを目指すSEO(Search Engine Optimization, 検索エンジン最適化)がビジネスとして行なわれるようになり、検索エンジンの動向に注目が集まっている。

検索エンジンの動向に関するニュースを扱うサイトとしては、Search Engine Watchや、浅井勇夫氏による検索デスクが良く知られている。

Search Engine Watch
検索デスク

(2)特定トピックのページ抽出・Webコミュニティ発見

ハイパーリンクのグラフ構造に注目した特定トピックページの抽出やコミュニティ発見の代表的な研究としては、以下のものがある。

・Webページの有用性の基準として、特定トピックに関する情報が豊富なページ(ハブ)と、ハブへのリンクが豊富なページ(オーソリティ)を導入し、両者を相互再帰的に定義し計算するKleinbergらのHITSアルゴリズム

Jon M. Kleinberg.Authoritative Sources in a Hyperlinked Environment (1999)

・Webのスナップショットデータからの2部グラフ探索によるKumarらのコミュニティ発見

Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins.Trawling the web for emerging cyber-communities (1999)

・ネットワークフロー問題における最大流・最小カット定理をWebのグラフ構造に適用したFlakeらのWebコミュニティ発見

Gary William Flake, Steve Lawrence, C. Lee Giles, Frans M. Coetzee.Self-Organization and Identification of Web Communities (2002)

(3)Web構造のモデル化

Webのマクロな構造に関する研究としては、ハイパーリンクによるWebページ間の結合関係を分析し、Webは蝶ネクタイ構造であると主張したBroderらの研究が有名である。Webページ間の到達可能性に関して、中心的な強連結成分(SCC)、 SCCへ到達できるが逆は不可のIN, SCCから到達できるが逆は不可のOUT, その他のTENDRILの4つの部分から構成されていることを示している。

A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan,
R. Stata, A. Tomkins, J. Wiener.Graph Structure in the Web (2000)

Webのネットワーク構造の性質としては近年、”スケールフリー”や”スモールワールド”であることが指摘されてきている。両者の詳しい内容については、松尾豊氏の「スモールワールドとチャンス発見」人工知能学会誌 Vol.18, No.3, pp.288-294 (2003)や福田健介氏、栗原聡氏の「ネットワークの科学」人工知能学会誌 Vol.18, No.6, pp.716-722 (2003)の解説記事を参照していただきたい。
スケールフリーについては、Notre Dame大のBarabasiのページ

Self-Organized Networks

が参考になる。”Webの直径は19″と主張したNatureの論文
“Diameter of the World-Wide Web”や、インターネットのトラフィックを視覚化した画像などもある。

3.国際会議・学会など

Webに関する国際会議は非常に数多く開催されている。以下に示すのはそのごく一部である。また、”Mining the Web”(Morgan Kaufmann)の著者
Soumen Chakrabartiのホームページや、Proceedings of the National Academy of Science of the United States of AmericaのVol.101 Suppl.1 (2004)も、Webマイニング研究の最新動向をつかむ上で非常に参考になる。

International World Wide Web Conference(WWW)
ACM SIGKDD International Conference(KDD)
International Conference on Web Infomation Systems Engineering(WISE)
International Conference on Web Intelligence(WI)

Workshop on Web Mining and Web Usage Analysis(WebKDD)

Workshop on Algorithms and Models for the Web-Graph (WAW)
ACM SIGWEB

4.Web視覚化システム

Web構造マイニングとは直接関係ないが、Webページ集合をグラフとして表現する視覚化システムは、検索結果をユーザに提示するインタフェースなどにおいて非常に重要である。
Googleが2002年に公開したSOAPおよびWSDLに基づいたインターフェース
Google Web API
により、Googleが収集したWebページのデータを好きなようにプログラミングして利用することができ、それを利用した視覚化システムが数多く開発されている。

TouchGraph
Google Set Vista
Anacubis google-enabled visual search

その他にも、Webページ集合を視覚化するシステムとしては以下のものがある。

Periscope
KartOO
Grokker2
InfoLeed
Vivisimo

Webに限らずサイバー空間の視覚化を扱ったサイトとしては、以下のサイトがある。

mapping cyberspace

5.おわりに

対象のグラフ構造に注目する研究はWeb構造マイニングに限らず、例えば有機化合物などの構造における頻出部分グラフの発見や、社会学における人間のネットワークの分析などがあげられる。
人工知能研究において現実的なデータを扱う上で、構造をもったデータのマイニング手法の必要性は高まってきている。もちろん、一口にグラフ構造のデータと言っても、グラフの大きさ、辺の密度、辺の種類、ラベルの有無、ノイズの程度などは様々であり、他の研究分野における手法がそのままWebのグラフ構造に対して適用できるわけではない。Webのグラフとしての性質を理解し、広くグラフマイニングにおけるケーススタディとしてWeb構造マイニング手法を
位置づけることができれば、この研究分野の重要性はますます高まっていくものと期待される。