私のブックマーク
情報検索
1. はじめに
古くはデータベース研究の一分野で扱われていた情報検索だが、WWWの普及にともなって近年多くの分野から注目を集めている。
研究の方向としては、検索の対象を多言語の文書や画像・音声に広げるという方向と、文書を「索引語の集合によって特徴付けられたアトミックな対象」としてとらえる“古典的な”見方自体を修正・拡張するという方向の二つの軸に分解できるように思う。
後者は、文書の言語的特徴や、ユーザの状況や文書間の参照関係といった背景情報を検索にとり入れるものであり、情報抽出や質問応答などへとつながってゆく。
著者の研究範囲が後者に偏っているので、ここで紹介する情報もそちらに偏っている。
また、情報検索や情報抽出およびその周辺情報に関しては本学会誌2004年5月号の特集「WWW上の情報の知的アクセスのためのテキスト処理」や1999年1月号の第一回「私のブックマーク」などでもすでにとりあげられており、本稿の情報にも重複があるが、URLなどは2004年9月現在のできるだけ新しい情報を挙げてある。
これらの点はご了承願いたい。
2. 各種情報源
2.1. 会議/ワークショップ
共通のデータおよびタスクを定めてその成績を競い合う、評価型のワークショップが盛んに行なわれている。
下記の中では ACM/SIGIR 以外は全て評価型である。
TREC(Text REtrieval Conference) [1]
National Institute of Standards and Technology(NIST)と米国国防総省が主催する国際会議であり、1992年から毎年行なわれている。
いくつかのトラックに分かれており、最近ではビデオ映像からの検索を課題とするトラックTRECVID[2]もある。
NISTのRetrieval Group[3]のWebページからたどれる。ACM/SIGIR (Association for Computing Machinery, Special Interest Group on Information Retrieval) [4]
検索だけでなく、研究戦略やシステムの評価方法など幅広い範囲を対象としており、1995年から毎年開催されている。NTCIR (NII-NACSIS Test Collection for IR Systems,
情報検索システム評価用テストコレクション構築プロジェクト) [5]
国立情報学研究所情報学資源研究センターが中心となって主催するワークショップで、1998年からほぼ毎年行なわれている。
情報検索だけでなく、用語抽出や質問応答などのタスクも行なわれている。CLEF (Cross Language Evaluation Forum) [6]
ヨーロッパの諸言語をターゲットにした多言語の情報検索に関するワークショップで、2000年から毎年開催されている。
対話形式や話し言葉によるタスクも行なわれている。MUC (Message Understanding Conference)[7]
文書やパラグラフを“探す”ことを主な目的とする情報検索ではなく、指定したタイプの出来事に関する情報をフレームの形で抽出する情報抽出をタスクとするワークショップで、1987年から1998年までほぼ毎年開催されていた。INEX (INitiative for the Evaluation of XML Retrieval) [8]
上記の会議/ワークショップが計算機のための加工が施されていない“生の”データを対象としているのに対して、XMLでアノテーションが施されたデータを対象とするワークショップで、2002年から毎年開催されている。
また、必ずしも情報検索がメインの会議ではないが、情報検索のセッションが設けられている会議としては、以下のものが挙げられる。
自然言語
ACL(Association for Computational Linguistics)[9],COLING (International Conference on Computational Linguistics,
最新の会議情報は運営組織であるICCL(International Committee on Computational Linguistics)
[10]のWebページからたどれる)人工知能
AAAI(American Association for Artificial Intelligence) [11],
IJCAI(International Joint Conference on Artificial Intelligence) [12]機械学習
ICML (International Conference on Machine Learning,
(最新の会議情報は運営組織であるIMLS(International Machine Learning Society)
[13]のWebページからたどれる)Web その他
WWW Conference (International World Wide Web Conference) [14]
(2002年以降、www(西暦).orgというドメイン名を取得しているようだ),
ACM/SIGMOD (Management of Data)[15],
ICDE (International Conference on Data Engineering)[16]