Vol.26 No.5 (2011/09) プライバシ保護データマイニング


私のブックマーク

プライバシ保護データマイニング

Privacy-preserving Data Mining
筑波大学大学院 システム情報工学研究科 
佐久間 淳 http://www.slab.cs.tsukuba.ac.jp/members/jun/index.html

1.はじめに

個人の行動や経済活動に密接に関連した実社会情報を扱うオンラインサービスの利用が盛んになりつつあります. 近年ではスマートフォンの普及による個人の精細な地理情報や行動履歴を利用した広告モデルやSNSなどが登場しています.今後は医療/遺伝子情報や金融/資産情報など,よりセンシティビティの高いデータの活用へと議論が向うと予想されています.

個人の望まない,あるいは意図しない個人情報の流通は社会に与える影響が大きく,その取扱いは慎重を要しますが,個人にかかわる情報はサービスの個人化にはなくてはならない情報であり,プライバシ保護を重視するあまりにこのような価値ある情報を眠らせておくこともまた機会損失になります.そのため,プライバシ情報の利用と保護のバランスをとる技術の模索が続けられています.

プライバシ保護データマイニング(privacy-preserving data mining, PPDM)には明確な定義はなく, 個人情報や機密情報を安全に知識発見に活用するためにここ10年あまりで発展してきた技術の総称とらえることができます.このページではプライバシ保護データマイニングが研究されているコミュニティや各種プロジェクト,また研究開発に有用な各種リソースを紹介します.

2.PPDM研究の情報源

PPDMに関する研究は

  • 入力プライバシー: 個人情報に匿名化などの処理を施した上で,データマイニング処理を行う. 「入力プライバシー」研究は国勢調査や各種サーベイなど,収集した個人情報を公に公開を安全に行うための技術で,主に統計やデータ工学のコミュニティで発展してきた技術です
  • 出力プライバシー: 個人情報にデータマイニング処理を施した上で,ノイズを加えるなどプライバシを保護する処理を行う. 「出力プライバシー」研究はデータマイニングの結果獲得した情報を安全に公開・利用するための技術で,主に理論計算科学やデータ工学のコミュニティで発展してきた技術です.
  • (狭義の)PPDM: 複数のパーティーが保持する秘密の個人情報を,一つのパーティーに集約することなくデータマイニング処理を行う. 「(狭義の)PPDM」研究は分散秘密情報源からのセキュアな知識発見を目指す技術で,主にデータマイニングや暗号理論・セキュリティのコミュニティで発展してきた技術です.

の三つに(おおざっぱに言えば)分類できます.三つめのPPDMの項目に「狭義の」とあるのは,これら三つをすべて含めてPPDMととらえる場合と,三つめの項目の意味合いにおいてのみPPDMととらえる場合があるためです.

これら全分野に渡る日本語の情報源としては

などが参考になるでしょう.

PPDMについて,初学者にとって参考になる情報源はWeb上では比較的少ないようです. 成書が充実しておりますので,まずはそちらをあたられることをおすすめします.

  • Charu C. Aggarwal and Philip S. Yu, Privacy-Preserving Data Mining: Models and Algorithms, (Springer) 著者のこの本に関するページ http://www.charuaggarwal.net/

    全分野について網羅的かつ丁寧に執筆されている良書
  • Fosca Giannotti, Dino Pedreschi, Mobility, Data Mining and Privacy: Geographic Knowledge Discovery (Springer) 筆頭著者のページ http://www-kdd.isti.cnr.it/people/giannotti-fosca

    位置情報・地理情報のデータマイニングとプライバシ保護に詳しい
  • Benjamin C.M. Fung, Ke Wang, Ada Wai-Chee Fu, and Philip S. Yu, Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques, (Chapman & Hall/CRC)

    各種データの入力プライバシーについて詳しく解説
  • Jaideep Vaidya, Yu Michael Zhu, Christopher W. Clifton, 嶋田 茂 (翻訳), 清水 將吾 (翻訳), プライバシー保護データマイニング (シュプリンガージャパン)

    基礎的なデータマイニングアルゴリズムのためのPPDMアルゴリズムを解説, 内容はおもに著者らの論文.

個別の分野のより詳しい情報については以下のものがあります.

  • Microsoft ResearchのDatabase Privacyグループのページ http://research.microsoft.com/en-us/projects/databaseprivacy/#Surveys
    入力プライバシー, 差分プライバシーに関する情報が充実
  • エストニアTallinn大Helger Lipmaa氏のMultiparty Computationに関するreference
  • http://research.cyber.ee/~lipmaa/crypto/link/mpc/

  • ICML2010で行われたPPDMチュートリアルの資料 http://www.site.uottawa.ca/~stan/icml10tutPrivacy/

3.ワークショップ・国際会議・ジャーナル

プライバシ保護データマイニングの研究は,様々なコミュニティの研究者が様々な側面から取り組んでいるため,研究は複数の国際会議に分散して掲載される傾向にあります.

3-1. データベース・データ工学系

データベース系の国際会議では比較的さまざまなプライバシの問題を取り扱う傾向にありますが,入力プライバシ(匿名化)や出力プライバシ(差分プライバシ)に関連する研究が中心です.

3-2. データマイニング・機械学習系

データマイニング系の国際会議では狭義のPPDMや出力プライバシ(差分プライバシ)に関連する研究が中心です.

3-3. セキュリティ系

セキュリティ系の国際会議では,具体的なサービスやユースケースに基づいたプライバシ保護(防御)やプライバシ侵害(攻撃)の研究が中心です.

3-3. 理論計算科学系

理論計算科学系の国際会議では,出力プライバシーの理論解析や,基礎的な暗号理論の研究が中心です.

3-4. ジャーナル

Transactions on Data Privacyは2008年創刊の比較的新しい論文誌です. データプライバシの問題を広く取り扱っています.

3-4. ワークショップ

4.プライバシ研究に有用なリソース

4.1 データ

PPDM研究は個人情報を安全に扱う技術を取り扱いますが,研究をするにあたって,そもそも個人情報を手に入れずらい,という問題点があり,研究に有用なデータセットはまだ十分とは言えません.以下は,必ずしもプライバシリサーチのために整備されたものではありませんが,プライバシリサーチに有用なデータセットを紹介しています.

  • 人の流れプロジェクト
    全国の都市圏の一日の人の位置・時間情報が,東京大学空間情報科学研究センター「人の流れプロジェクト」によって提供されています.東京都市圏の場合は,交通計画協議会によって収集された,のべ72.2万人分の首都圏内人の移動履歴データなどが提供されています.
  • 匿名データの作成・提供及びオーダーメード集計
    総務省統計局は,全国消費実態調査など各種官庁統計について,世帯や個人が特定されないよう、必要な匿名化処理を行った上で,データ提供を行っています.ただし利用目的は研究・教育に限定されています.
  • OnTheMap
    OnTheMapは米国センサスビューローが提供する雇用者の通勤経路を地図上にマップするウェブアプリケーションです.このサービスでは情報の開示制限に差分プライバシーを用いた手法がとりいれられています
  • Practice Fusion medical research dataset
    フリーのWebベースEHR(electric health record)であるpractice fujionが解析目的で公開しているEHRデータです.5000人分の患者の生体情報,診断情報,投薬情報などが含まれています.

4.2 ソフトウェア/ライブラリ

データの匿名化のためのソフトウェアが各所で提供されています.

  • Cornell Anonymization Took Kit http://sourceforge.net/projects/anony-toolkit/

    さまざまな攻撃者モデルの下で,個票からの個人識別を匿名化により制限するためのソフトウェア

  • Data-swapping tool kit http://nisla05.niss.org/software/dstk.html

    開示リスクと効用のバランスを考慮したカテゴリカルデータの開示支援ソフトウェア

以下は暗号プロトコルのビルディングブロックとなるアルゴリズムの実装を提供するライブラリです.

  • 準同型性暗号のJava実装 http://www.cs.umbc.edu/~kunliu1/research/Paillier.html

    Yahoo! ResearchのKun Liu氏によるPaillier暗号のライブラリです

  • The homomorphic encryption project http://code.google.com/p/thep/

    こちらも同じく準同型性暗号のJava実装ですが,閾値暗号化などをサポートしているオープンソースライブラリです

  • The Fair Play http://www.cs.huji.ac.il/project/Fairplay/

    Hebrew University of JerusalemのNoam Nisanらによるセキュアマルチパーティーコンピュテーション(MPC)を実装するための開発環境です.Pascal風の中間言語をコンパイルして論理回路を構成するため,MPCを表現する論理回路を直接記述する必要がありません.

  • VMCrypto http://www.lior.ca/publications.html

    VMCryptはclient-serverモジュール,暗号化モジュール,紛失送信などからなるセキュアMPC実装のためのjavaライブラリです

  • Sharemind http://research.cyber.ee/sharemind/

    エストニア研究機関 Cybernetica と Tartu 大学の研究グループによるセキュアMPCのオープンソースライブラリです.高速化を重視して実装されています
  • VIFF http://viff.dk/
    デンマーク Aarhus 大学の研究グループによるセキュアMPCのオープンソースライブラリです

5.プロジェクト

プライバシリサーチを現実世界のサービスに役立てるためには,法律上の議論を避けて通ることができません(日本の場合は個人情報保護法との整合など).このため,大規模プロジェクトは政府が主導しこれに大学や企業が参加する形で実施されることが多いようです.以下はデータプライバシを取り扱う各国の代表的なプロジェクトです

  • 個人情報匿名化基盤プロジェクト http://www.meti.go.jp/policy/it_policy/daikoukai/igvp/cp2_jp/common/024/010/post-9.html

    情報大航海プロジェクトにおいて,k-匿名化法を中心とする大規模個人情報の匿名化のためのデータベースアプリケーションフレームワークが開発されました

  • MODAP http://www.modap.org/

    MODAP (Mobility, Data Mining, and Privacy)はEU各国が取り組む移動体情報からの知識発見とそのプライバシ保護に関する研究開発を目指すプロジェクトです.

  • ESSnetプロジェクト http://www.modap.org/

    オランダ統計局による, 匿名化を含む統計的開示抑制(statistical disclosure control)ツールの研究開発プロジェクトです.個票開示を支援するソフトウェアμ-ARGUSやテスト用データセットの提供などを行っています
  • DIGITAL.ME http://cordis.europa.eu/fetch?CALLER=PROJ_ICT&ACTION=D&CAT=PROJ&RCN=96893

    EUの研究プログラムFP7に属するDIGITAL.MEプロジェクトは,個人にまつわるあらゆる情報をユーザデバイスに集約し,ユーザが制御可能なアクセスポイントを介して個人情報を利用することを目指すプロジェクトです

6.おわりに

プライバシ保護データマイニングに関して,データマイニングとデータ工学,セキュリティ,理論計算科学の分野からリンクをご紹介しました.このブックマークを作成するに当たり,多くの方から参考情報をいただきました.お礼申し上げます.それでもなお多くの重要リソースやプロジェクトがカバーされていないことについてはご容赦ください.