Vol.19 No.6 (2004/11) 情報検索


私のブックマーク

情報検索

1. はじめに

古くはデータベース研究の一分野で扱われていた情報検索だが、WWWの普及にともなって近年多くの分野から注目を集めている。
研究の方向としては、検索の対象を多言語の文書や画像・音声に広げるという方向と、文書を「索引語の集合によって特徴付けられたアトミックな対象」としてとらえる“古典的な”見方自体を修正・拡張するという方向の二つの軸に分解できるように思う。
後者は、文書の言語的特徴や、ユーザの状況や文書間の参照関係といった背景情報を検索にとり入れるものであり、情報抽出や質問応答などへとつながってゆく。
著者の研究範囲が後者に偏っているので、ここで紹介する情報もそちらに偏っている。
また、情報検索や情報抽出およびその周辺情報に関しては本学会誌2004年5月号の特集「WWW上の情報の知的アクセスのためのテキスト処理」や1999年1月号の第一回「私のブックマーク」などでもすでにとりあげられており、本稿の情報にも重複があるが、URLなどは2004年9月現在のできるだけ新しい情報を挙げてある。
これらの点はご了承願いたい。

2. 各種情報源

2.1. 会議/ワークショップ

共通のデータおよびタスクを定めてその成績を競い合う、評価型のワークショップが盛んに行なわれている。
下記の中では ACM/SIGIR 以外は全て評価型である。

また、必ずしも情報検索がメインの会議ではないが、情報検索のセッションが設けられている会議としては、以下のものが挙げられる。

2.2. 国内の学会/研究会

情報検索に関する研究がよく発表される国内の学会・研究会としては、下記が挙げられる。

2.4. 論文誌

情報検索に関するよく参照されている論文が(多く)掲載されている論文誌としては、下記が挙げられる。

2.5. リソース

上記の評価型ワークショップでは評価に使用したリソースは原則として参加者のみが利用可能とされているが、一般公開しているものもある(ちなみに、情報検索システム評価用の日本語コーパスとして情報処理学会データベース研究会を中心に作成されたBMIR-J2(1998年2月公開)があるが、図書館情報大の閉校に伴ってWebページはなくなってしまったらしい)。

  • MUC
    MUC 3,4のデータは[7]から無償で、MUC 6,7のデータは下記のLDCを通じて有償で配布されている。

  • NTCIR
    研究目的に限り無償で利用可能としている。

  • IREX (Information Retrieval and Extraction Exercise) [29]
    プロジェクト自体は2000年に終了したが、ツールやデータは一般に公開されている。

また、情報検索に関するデータではないが、下記ではコーパスや辞書・ツールなどのさまざまな言語資源に関する情報の提供・配布を行なっている。

また、電子情報技術産業協会の知識情報処理技術委員会が運営する言語情報処理ポータル [32]
では、国内外の言語資源に関する情報だけでなく、会議案内や自然言語処理に関する用語集なども提供されており、おすすめである。

3. おわりに

検索システムに限らないが、ある程度複雑なシステム同士を比較するためには性能を客観的に評価することが不可欠である。
その意味では共通のリソースを使って競い合うというのは健全な方法であるが、客観性・再現性を重視しすぎると被験者の能力や性質の影響が小さくなるようにタスクを設計せざるを得ず、実際のユーザの検索行動と乖離した評価になってしまう。
ユーザの能力を最大限に引き出すようなシステムを理想とするならば、そのような被験者の能力や性質を含めた評価を行なわざるを得ない。
その上で評価の客観性を保とうとするならば、今後は被験者の語彙の大きさや連想能力といった人間の能力の測定が重要になってくるだろう。
なお、今回BMIR-J2に関する情報を探す際にInternet ArchiveのWaybackMachine[33]を利用した。このサイトでは、1996年から収集した100Tbyte以上のWebページの中から、指定したURLに対して時間順のアーカイブが閲覧できる。
すでになくなってしまったサイトのページや、1996年当時のYahoo!やAmazon.comなどのページが閲覧できたりしてなかなか面白い。

URL一覧

  1. http://trec.nist.gov/
  2. http://www-nlpir.nist.gov/projects/trecvid/
  3. http://www-nlpir.nist.gov/
  4. http://www.acm.org/sigir/
  5. http://research.nii.ac.jp/ntcir/index-ja.html
  6. http://www.clef-campaign.org/
  7. http://www-nlpir.nist.gov/related_projects/muc/index.html
  8. http://inex.is.informatik.uni-duisburg.de:2004/
  9. http://www.aclweb.org/
  10. http://www.dcs.shef.ac.uk/research/ilash/iccl/
  11. http://www.aaai.org/
  12. http://www.ijcai.org/
  13. http://www.machinelearning.org/
  14. http://www.www2004.org/
  15. http://www.acm.org/sigmod/
  16. http://www.informatik.uni-trier.de/~ley/db/conf/icde/
  17. http://www.jaist.ac.jp/nlp/SIGNL/
  18. http://www.ipsj.or.jp/katsudou/sig/sighp/fi/
  19. http://hikendbs.eei.metro-u.ac.jp/sigdbs/
  20. http://www.ieice.org/~nlc/
  21. http://www.ieice.org/~tl/
  22. http://www.ieice.org/~wi2/
  23. http://www.pluto.ai.kyutech.ac.jp/NLP/
  24. http://winnie.kuis.kyoto-u.ac.jp/sig-slud/
  25. http://www.kluweronline.com/issn/1386-4564
  26. http://www.emeraldinsight.com/rpsv/jd.htm
  27. http://www.elsevier.com/wps/product/cws_home/244
  28. http://www.elsevier.com/wps/product/cws_home/505601
  29. http://nlp.cs.nyu.edu/irex/
  30. http://www.elda.fr/
  31. http://www.ldc.upenn.edu/
  32. http://www.kc.t.u-tokyo.ac.jp/NLP_Portal/
  33. http://web.archive.org/

(独立行政法人 科学技術振興機構 CREST 宮田 高志
miyata.t@carc.aist.go.jp)