Vol.21 No.6 (2006/11) XML 検索


私のブックマーク

XML 検索

波多野 賢治 (同志社大学文化情報学部)

1. はじめに

XML (Extensible MarkupLanguage)SGML(Standard Generalized Markup Language) を基に策定された規格であり, 「タグを利用したマークアップ」「構造化文書」「メタ言語」 といった特長を持っている.
SGML と比較して文法定義などが分かり易かったこともあり, XML は爆発的にまた広範囲に普及し, 何らかのデータ記述フォーマットを規定しようとするときには, XML による記述法も用意されていることも今では普通となっている.
また,XML を用いたアプリケーションも Web サービスを始め,セマンティック Web,ブログ (blog) など数多く存在し,情報技術者にとって XML は必須技術の一つであるといっても過言ではない.

このように XML は広範囲に利用されているため,XML 検索と一言で言っても実にさまざまな意味を持っていると考えられる. 著者の研究分野がデータ工学に偏っていることもあり, 本ページで紹介する情報もそちらに偏っていることは否めないが,XML 検索の研究の方向性は二種類あると考えている.
具体的には,XML 文書に対する「データ検索」と 「情報検索」に関連する研究テーマであり,前者はどちらかといえば, 検索システムがデータを (高速に) 発見できるかという高性能システムを念頭に進められている研究, 後者は利用者が情報要求を満足するデータを発見することによって, その利用者の知識増加が起こり得るかどうかという点を重要視した研究である.
研究の方向性が異なるため,これらを扱っている研究コミュニティも異なり, 前者は主にデータ工学分野, 後者は主に情報検索を研究テーマとして扱っている文書処理, 言語処理などの分野で扱われている.

なお,XML が広範囲に利用されていることから, 本ページで紹介している XML 検索関連の情報が Web アプリケーションやセマンティック Web 等, 本学会誌で既に扱った内容を一部含んでいる可能性がある. 現に,既に本学会誌 「私のブックマーク」でも,1999 年 1 月2003 年 5 月,および 2004 年 11 月で,情報検索やセマンティック Web 関連の話題が取り上げられており,これらと情報が重複する点はお許し願いたい.

2. 各種情報源

2.1 国内の学会/研究会

XML が広範囲に利用されていることから, 国内の学会/研究会に限っても非常に多方面で XML 検索に関する研究が行われている. その中でも特に以下に挙げる学会/研究会では,XML 検索に関する研究が散見される.

2.2 国際会議

研究の方向性が二通り存在するため, それぞれの方向性ごとに分類を行った. なお,二つの方向性から逸脱するであろうと思われた情報は, その他として紹介する.

2.3 論文誌

XML データ検索および XML 情報検索に関する論文が多く掲載されている論文誌としては, 以下のものが挙げられる.
ちょうど本ページ執筆時に,ACM TOIS で XML 情報検索に関する特集号に掲載する論文を募集している最中であった.

2.4 リソース

XML 検索は,一般に XML 文書をデータベースに格納した上で検索を行うというアプローチと, W3C が定めた XQuery の実装である XQuery エンジンを構築し,そのエンジンを用いて検索を行うという二種類のアプローチがある.
以下に挙げたソフトウェアは,2.2 および 2.3 で挙げた国際会議, 論文誌等で評価実験の比較対象に挙げられるなど有名であり, 実際にそれらのソフトウェアをダウンロードし使用することも可能である.
また近年,一部のソフトウェアでは全文検索のための機能が付加されるようになり, XML データ検索だけではなく,XML情報検索をも実行できるような環境が整ってきている.
もちろん,三大データベースシステムである OracleIBM DB2Microsoft SQL Server も,こうした機能が付加されるようになった.

  • XML 文書をデータベースに格納した上で検索を行うアプローチ (XML データベース)

  • XML 文書を主記憶に格納した上で検索を行うアプローチ (XML 問合せ処理エンジン)

また,評価実験を行う際には比較的サイズの大きな XML 文書を用意する必要があるが, そうしたテストデータとしてしばしば利用されるものに以下のようなものがある.
DBLP と SIGMOD Record の XML 文書は, 単にデータを配布しているだけであるのに対し, XBench や XMark はベンチマークと呼ばれているように, 問合せ処理の実行速度を比較できるように問合せが用意されている.
また,INEX test collection に至っては,唯一の XML 情報検索用のテストコレクションであるため,問合せの他にその解答も用意されている. こうしたベンチマークやテストコレクションを利用して,他のシステムとの比較実験を行い,開発したシステムの評価を行うのである.
INEX test collection は評価型ワークショップである INEX Workshop へ参加表明を行う (毎年 4 月頃) ことで利用可能となるが,それ以外のものは一般に公開されている.

なお,RDF データに対するさまざまな処理機能を提供する フレームワークとして Jena が提供されている.Jena は RDF データに対する検索を行うために,W3C で勧告間近である RDF 問合せ言語 SPARQL (Protocol and RDF Query Language) の実装を含んでいる.

3. おわりに

検索という行為は誰がどのようなデータを検索対象とするかによって,必要とされる検索結果は異なってくる. データ検索と情報検索はその典型例であり,前者の場合は検索の高速性, 後者の場合は検索の正確性だけを追求して今日に至っている.
しかし,データ量が増加し続けている現在, 検索の高速性と正確性は共に必要不可欠な性質であり,どちらが欠けても検索結果の受け手にとって満足のいく結果が得られなくなる.
したがって,両方の性質を追求するために XML 検索に関わってくる研究分野はますます増え, この分野の重要性はますます高まっていくものと思われる.