私のブックマーク
XML 検索
波多野 賢治 (同志社大学文化情報学部)
1. はじめに
XML (Extensible MarkupLanguage) は SGML(Standard Generalized Markup Language) を基に策定された規格であり, 「タグを利用したマークアップ」「構造化文書」「メタ言語」 といった特長を持っている.
SGML と比較して文法定義などが分かり易かったこともあり, XML は爆発的にまた広範囲に普及し, 何らかのデータ記述フォーマットを規定しようとするときには, XML による記述法も用意されていることも今では普通となっている.
また,XML を用いたアプリケーションも Web サービスを始め,セマンティック Web,ブログ (blog) など数多く存在し,情報技術者にとって XML は必須技術の一つであるといっても過言ではない.
このように XML は広範囲に利用されているため,XML 検索と一言で言っても実にさまざまな意味を持っていると考えられる. 著者の研究分野がデータ工学に偏っていることもあり, 本ページで紹介する情報もそちらに偏っていることは否めないが,XML 検索の研究の方向性は二種類あると考えている.
具体的には,XML 文書に対する「データ検索」と 「情報検索」に関連する研究テーマであり,前者はどちらかといえば, 検索システムがデータを (高速に) 発見できるかという高性能システムを念頭に進められている研究, 後者は利用者が情報要求を満足するデータを発見することによって, その利用者の知識増加が起こり得るかどうかという点を重要視した研究である.
研究の方向性が異なるため,これらを扱っている研究コミュニティも異なり, 前者は主にデータ工学分野, 後者は主に情報検索を研究テーマとして扱っている文書処理, 言語処理などの分野で扱われている.
なお,XML が広範囲に利用されていることから, 本ページで紹介している XML 検索関連の情報が Web アプリケーションやセマンティック Web 等, 本学会誌で既に扱った内容を一部含んでいる可能性がある. 現に,既に本学会誌 「私のブックマーク」でも,1999 年 1 月,2003 年 5 月,および 2004 年 11 月で,情報検索やセマンティック Web 関連の話題が取り上げられており,これらと情報が重複する点はお許し願いたい.
2. 各種情報源
2.1 国内の学会/研究会
XML が広範囲に利用されていることから, 国内の学会/研究会に限っても非常に多方面で XML 検索に関する研究が行われている. その中でも特に以下に挙げる学会/研究会では,XML 検索に関する研究が散見される.
2.2 国際会議
研究の方向性が二通り存在するため, それぞれの方向性ごとに分類を行った. なお,二つの方向性から逸脱するであろうと思われた情報は, その他として紹介する.
- XML データ検索
データ工学に関連する国際会議は数多く存在するが, その中でも特に以下に挙げる三つの国際会議には XML
データ検索に関する研究が多く見られる. 特に ACM SIGMOD 2005 では,XML 検索に関するパネルセッションが開かれ,データベースコミュニティおよび情報検索コミュニティの研究者間で,白熱した議論が行われた.また,これらの国際会議に併設して開催されるワークショップにも XML を扱ったものが増えており,下記に挙げる XIME-P や XSDM,XSym では, XML データ検索に関する研究が多く見られる. XIME-P は XML 問合せ言語の標準となりつつある XQueryの実装に関するワークショップであり, 毎回白熱した議論がなされることで有名である.
- International Workshop on XQuery Implementation, Experience and Perspectives (XIME-P)
- International Workshop on XML Schema and Data Management(XSDM: 2006, 2005, 2003)
- XML Database Symposium (XSym)
- XML 情報検索
欧州から XML 情報検索の研究が始まったこともあり, 欧州の情報検索の研究者がこぞって投稿する以下の二つの国際会議に XML 情報検索の研究が発表されることが多い.
なお,ACM SIGIR Conference では,2004,2006 年に XML 情報検索関連のワークショップが開催されている.また,もともとデジタルライブラリと SGML の関係が深かったこともあり,近年はデジタルライブラリ関連の国際会議にも XML 検索関連の研究発表がなされ始めている.
これらは特に XML 情報検索の研究プロジェクト INEX (INitiative for the Evaluation of XML Retrieval) の功績が大きい.
- その他
XML に関連する技術の提案が W3C (World Wide Web Consortium) でなされることから, W3C 主催の国際会議 International WWW Conferences で, 研究の方向性に関わらず,XML 検索関連の論文が発表されている.
また,CIKM は,データ工学および情報検索関連技術を扱う国際会議であるため,XML 検索のような研究テーマにはうってつけであるといえる.- International World Wide Web Conferences (WWW)
- Conference on Information and Knowledge Management (CIKM)
一方,前述した XQuery のような XML 問合せ言語は,少なからずプログラミング言語分野や文書処理分野の研究成果が利用されている.こうした研究はプログラミング言語分野の国際会議 POPL やそれに併設されるワークショップ,International Degital Enterprise Alliance (IDEAlliance) が主催する国際会議等でしばしばみられる.
- Symposium on Principles of Programming Languages (POPL)
- Programming Language Techniques for XML (PLAN-X: 2007, 2006, 2005, 2004, 2002)
- International Workshop on Database Programming Languages (DBPL)
- The ACM Symposium on Document Engineering (DocEng)
- XML Conference
- XTech Conference
なお,著者の研究範囲外ではあるが,RDF (Resource Description
Framework) など,XML 形式で記述されたデータの検索に関する研究が, セマンティック Web 関連の国際会議に発表されているケースもある.
以下に挙げた ISWC は Semantic Web Science Association (SWSA) が主催する有名な国際会議である.
2.3 論文誌
XML データ検索および XML 情報検索に関する論文が多く掲載されている論文誌としては, 以下のものが挙げられる.
ちょうど本ページ執筆時に,ACM TOIS で XML 情報検索に関する特集号に掲載する論文を募集している最中であった.
- XML データ検索
- XML 情報検索
2.4 リソース
XML 検索は,一般に XML 文書をデータベースに格納した上で検索を行うというアプローチと, W3C が定めた XQuery の実装である XQuery エンジンを構築し,そのエンジンを用いて検索を行うという二種類のアプローチがある.
以下に挙げたソフトウェアは,2.2 および 2.3 で挙げた国際会議, 論文誌等で評価実験の比較対象に挙げられるなど有名であり, 実際にそれらのソフトウェアをダウンロードし使用することも可能である.
また近年,一部のソフトウェアでは全文検索のための機能が付加されるようになり, XML データ検索だけではなく,XML情報検索をも実行できるような環境が整ってきている.
もちろん,三大データベースシステムである Oracle,IBM DB2,Microsoft SQL Server も,こうした機能が付加されるようになった.
- XML 文書をデータベースに格納した上で検索を行うアプローチ (XML データベース)
- XML 文書を主記憶に格納した上で検索を行うアプローチ (XML 問合せ処理エンジン)
また,評価実験を行う際には比較的サイズの大きな XML 文書を用意する必要があるが, そうしたテストデータとしてしばしば利用されるものに以下のようなものがある.
DBLP と SIGMOD Record の XML 文書は, 単にデータを配布しているだけであるのに対し, XBench や XMark はベンチマークと呼ばれているように, 問合せ処理の実行速度を比較できるように問合せが用意されている.
また,INEX test collection に至っては,唯一の XML 情報検索用のテストコレクションであるため,問合せの他にその解答も用意されている. こうしたベンチマークやテストコレクションを利用して,他のシステムとの比較実験を行い,開発したシステムの評価を行うのである.
INEX test collection は評価型ワークショップである INEX Workshop へ参加表明を行う (毎年 4 月頃) ことで利用可能となるが,それ以外のものは一般に公開されている.
なお,RDF データに対するさまざまな処理機能を提供する フレームワークとして Jena が提供されている.Jena は RDF データに対する検索を行うために,W3C で勧告間近である RDF 問合せ言語 SPARQL (Protocol and RDF Query Language) の実装を含んでいる.
3. おわりに
検索という行為は誰がどのようなデータを検索対象とするかによって,必要とされる検索結果は異なってくる. データ検索と情報検索はその典型例であり,前者の場合は検索の高速性, 後者の場合は検索の正確性だけを追求して今日に至っている.
しかし,データ量が増加し続けている現在, 検索の高速性と正確性は共に必要不可欠な性質であり,どちらが欠けても検索結果の受け手にとって満足のいく結果が得られなくなる.
したがって,両方の性質を追求するために XML 検索に関わってくる研究分野はますます増え, この分野の重要性はますます高まっていくものと思われる.