No.6 (2013/11) 情報推薦


私のブックマーク

情報推薦システム(Recommender Systems)

奥 健太(立命館大学)

はじめに

「この商品を買った人はこんな商品も買っています」.
このようなフレーズは今やあらゆるオンラインショッピングサイトで目にするようになった.
情報推薦システムは,膨大な情報の中からユーザの嗜好にあった情報を提供するシステムである.
基本的な実現方式としては,大きく,内容に基づくフィルタリングと協調フィルタリングがある.
内容に基づくフィルタリングでは,購入履歴や閲覧履歴などからユーザのプロファイルを構築し,
そのプロファイルに合致するアイテムを推薦する.
協調フィルタリングでは,
嗜好が類似するユーザが高く評価しているアイテムを対象ユーザにも推薦したり,
対象ユーザが興味を示しているアイテムと類似するアイテムを推薦したりする.

本稿では,情報推薦システムについて研究を遂行していくにあたって,
参考になる情報源やデータセットなどについて紹介する.
なお,情報推薦システムは情報検索技術にも大きく関連するため,
本誌企画の私のブックマーク「情報検索」
私のブックマーク「情報検索インタフェース」
も併せて参照されたい.

主要な国際会議・コミュニティなど

情報推薦システムに関連する主な国際会議として,以下のものがある.
特に,ACM RecSysは,その会議名のとおり,情報推薦システムが主題となっている.
また,本会議の前後には情報推薦分野の中でも最先端のトピックに関するワークショップも開催されるため,
最新の情報推薦分野の研究動向を把握することができる.
ACM RecSysに関しては,国内のコミュニティにおいて
勉強会を開催しているため,
こちらも活用されたい.

ACM RecSys (ACM Conference on Recommender Systems)
ACM SIGIR (ACM Special Interest Group on Information Retrieval)
WWW (International World Wide Web Conference)

また,国内の主な会議や研究会としては,以下のものが挙げられる.

人工知能学会全国大会 (JSAI)
ARG 「Webインテリジェンスとインタラクション」研究会 (ARG SIG-WI2)
情報処理学会 データベースシステム研究会 (DBS)
電子情報通信学会 データ工学研 (DE)
データ工学と情報マネジメントに関するフォーラム (DEIM)
Webとデータベースに関するフォーラム (WebDB Forum)

さらに,情報推薦システムの研究論文が含まれる,主要なジャーナルや論文誌として,以下のものが挙げられる.

ACM Transactions on Information Systems (TOIS)
人工知能学会論文誌
情報処理学会論文誌:データベース(TOD)
電子情報通信学会論文誌D
日本データベース学会論文誌 (DBSJ Journal)
ヒューマンインタフェース学会論文誌
知能と情報(日本知能情報ファジィ学会誌)

以下は先述したACM RecSysの勉強会のサイトである.

RecSys勉強会

サーベイ論文・解説記事

情報推薦分野の基本的事項や研究動向などを知るには,
以下のサーベイ論文や解説記事が参考になる.

土方 嘉徳: 推薦システムにおけるインタラクション研究へのいざない, vol.15, no.3, pp.3-6, 2013.
ヒューマンファクタの観点から,情報推薦システムにおけるユーザインタラクションの役割や期待について述べられている.
奥健太: セレンディピティ指向情報推薦の研究動向, 知能と情報(日本知能情報ファジィ学会誌)- 特集:WebインテリジェンスとインタラクションII -, Vol.25, No.1, pp.2-10, 2013.
情報推薦システムにおける評価指標として,新規性,意外性,セレンディピティを取り上げ,それぞれの定義についてまとめられている.またこれらの性能を向上させるための情報推薦方式についてまとめられている.
奥健太: 国際会議 ACM Recommender Systems 2010 参加報告, 第19回 Webインテリジェンスとインタラクション研究会, pp.77-78, 2011.
先述したACM RecSys 2010にて発表された論文についてまとめられている.
土方 嘉徳: 推薦システムの基本方式と技術展望, 2010.
神嶌 敏弘: 推薦システムのアルゴリズム (3), 人工知能学会誌, vol.23, no.2, pp.248-263, 2008.
神嶌 敏弘: 推薦システムのアルゴリズム (2), 人工知能学会誌, vol.23, no.1, pp.89-103, 2008.
神嶌 敏弘: 推薦システムのアルゴリズム (1), 人工知能学会誌, vol.22, no.6, pp.826-837, 2007.
土方 嘉徳: 利用者の好みをとらえ活かす-嗜好抽出技術の最前線- : 1.嗜好抽出・情報推薦の基礎理論 1)嗜好抽出と情報推薦技術, 情報処理学会誌, Vol.48, No.9, pp.957-965, 2007.
G. Adomavicius and A. Tuzhilin, “Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions,” IEEE transactions on knowledge and data engineering, vol. 17, no. 6, pp. 734-749, 2005.
J. L. Herlocker, J. A. Konstan, L. G. Terveen, and J. T. Riedl, “Evaluating collaborative filtering recommender systems,” ACM Transactions on Information Systems (TOIS), vol. 22, no. 1, pp. 5-53, 2004.

書籍

情報推薦分野の基本的事項や研究動向などを知るには,
上記の文献などの他に,以下の書籍も参考になる.
情報推薦システムに関して,基礎から応用,最新動向まで体系的にまとめられている.

『Recommender Systems: An Introduction』
『情報推薦システム入門―理論と実践―』
上記書籍の邦訳である.

また,情報推薦システムを実際に実装するにあたっては,
以下の書籍が参考になる.

集合知プログラミング
集合知イン・アクション
Mahoutイン・アクション

研究用データセット

情報推薦システムの評価用データセットとしては,以下のものが公開されている.
基本的には,ユーザセット,アイテムセット,評価値セットから構成される.

GroupLens公開データセット

  • MovieLens Data Sets:GroupLensが公開しているMovieLensのデータセット
    • MovieLens 100k Data Set:映画データセット
      • 100,000 ratings, 1,682 movies, 943 users
    • MovieLens 1M Data Set:映画データセット
      • 1,000,209 ratings, 3,900 movies, 6,040 users
    • MovieLens 10M Data Set:映画データセット
      • 10,000,054 ratings, 95,580 tags, 10,681件 movies, 71,567 users
  • HetRec 2011 Data Sets:HetRec 2011用に公開されたデータセット
    • HetRec 2011 Delicious Bookmarks Data Set:ブックマークデータセット
      • ソーシャルブックマーキングシステムであるDeliciousから得られたソーシャルネットワーク,ブックマーク,タグ情報が含まれている
      • 104,799 bookmarks, 53,388 tags, 69,226 URLs, 1,867 users
    • HetRec 2011 Last.FM Data Set:音楽データセット
      • オンライン音楽システムであるLast.fmから得られたソーシャルネットワーク,タグ情報,音楽アーティスト単位のリスニング情報が含まれている
      • 92,834 artist listening records, 17,632 artists, 1,892 users
    • HetRec 2011 MovieLens Data Set:映画データセット
      • MovieLens 10M Data Setが,IMDbおよびRotten Tomatoes systemにより拡張されている
      • 855,598 ratings, 13,222 tags, 10,197 movies, 2,113 users
  • Wikilens Data Set:Wikiページデータセット
  • Book-Crossing Data Set:書籍データセット
    • 1,149,780 ratings, 271,379 books, 278,858 users
  • Jester Joke Data Set:ジョークデータセット
    • 4.1 million ratings, 100 jokes, 73,496 users
  • EachMovie Data Set:映画データセット
    • 2,811,983 ratings, 1,628 movies, 72,916 users

また,以下の楽天公開データセットも情報推薦システムの研究に有用である.
ただし,利用には契約が必要であるため,リンク先の規約を参照のこと.

楽天公開データセット【要契約】

  • 楽天市場:商品データセット
    • 商品データ(約5,000万商品),レビューデータ(約1,660万レビュー)
  • 楽天トラベル:施設データセット
    • 施設データ(82,458施設),レビューデータ(約465万レビュー)
  • 楽天GORA:施設データセット
    • 施設データ(1,669施設),レビューデータ(約32万レビュー)
  • 楽天レシピ:レシピデータセット
    • レシピデータ(約44万レシピ),レシピ画像データ(約44万レシピ画像)

WebサービスAPI

各サイトから提供されているWebサービスAPIである.
これらも情報推薦システムの研究に有用である.
利用規約などについては,それぞれのリンク先を参照のこと.

Web検索関連

地図関連

ユーザ生成コンテンツ関連

レストラン関連

書籍関連

おわりに

本稿では,情報推薦システムの研究を進める上で,
参考なる情報源やデータセットなどを紹介した.
本稿で取り上げたように,最近では参考書籍や研究用データセットなども充実してきており,
研究もより進めやすくなったと思われる.
本稿がこの分野の研究を進める上で参考になれば幸いである.