Vol.14 No.1 (1999/01) 自然言語処理/情報検索


私のブックマーク

自然言語処理/情報検索

0. 掲載にあたって

「私のブックマーク」は,人工知能に関連する様々な分野の研究者の皆様
に,頻繁にアクセスするWebサイトを紹介してもらうというコーナーです.研
究に不可欠なもの,そうでないものもとりまぜて,簡単に(無料で)アクセスで
き,役に立つ情報を紹介していきたいと思います.また,ここで紹介したリンク
は,人工知能学会Web page(https://www.ai-gakkai.or.jp/jsai/)上でも
公開される予定です.

さて,第1回目は,これまで自然言語処理(NL)や,Web上での情報検索(IR),
可視化のプロジェクトに携わってきた研究者のブックマークです.

1. 論文データベース,電子会議録

私が入社した頃は,会社の文房具棚に海外の研究者に論文を送ってもらう
ための葉書というものがありました.この葉書を出すことから始まって,実際
に論文のコピーを手に入れるまでに数週間かかっていましたが,そのうちに電
子メールが使えるようになり,最近は,学会や研究者のWebサイトから論文が
ダウンロードできるようになりました.

計算言語学関係の論文のデータベースとしては,The
Computation and Language E-Print Archive[1.1]が有名です.COLING, ACLといった主要な国際会
議やワークショップで発表された論文が手に入ります.検索も可能です.
最近は,収集分野を拡大しているそうです.
ACL(The Association for Computational Linguistics)では,The
ACL NLP/CL Universe[1.2]というページで,NLに関する情報の検索および階層メニュー
を提供しています.

IR関係では,ACM SIG主催の会議やワークショップの論文の一部が取得可能
です.

ACM SIGIRに関しては,1973年から1994年までのSIGIRで発表された
論文のリストが[1.3]から取得できます.Hypertext/Hypermedia分野をカバー
するSIGLINKでは,関連する会議のonline proceedingsのリンクがあげられて
います([1.4],ただしリンクの一部はアクセスできませんでした).また,ACM
SIGCHI(Special Interest Group on Computer-Human
Interaction)では,95年 から98年のSIGCHIで発表された論文の多くをダウンロードすることができます
[1.5].

AAAIでは,年2回春と秋に行われるシンポジウムで,情報検索に関連する
魅力的なトピックが取り上げられることが多く,おもしろい論文に巡り会うこ
とができます.ただし,会議録は,AAAIのWebsiteではなく,会議が開催され
た大学等のサイトで運用されているようです.いくつかのリンクを,人工知能
学会のWebsiteで紹介しています.

World Web Web Conferenceは,W3Cが主催しているWebに関する様々な話題
を網羅する会議ですが,Web上での情報検索に関する論文(最近は少なくなり
ましたが)などが掲載されています.ほとんどの論文がダウンロード可能です.
W3CのWebpage[1.6]から,各会議へのリンクをたどることができます.HTML化
されている論文も多く,カラーのイメージや直接飛べる参考文献など,Webの
特性をいかした作りになっています.

[1.1] http://xxx.lanl.gov/cmp-lg/
[1.2] http://www.cs.columbia.edu/~radev/u/db/acl/
[1.3] http://www.acm.org/sigir/Proc-Browse.html
[1.4] http://www.acm.org/sigs/sigweb/proceedingins.html
[1.5] http://www.acm.org/sigchi/chi9X/proceedings/, Xに数字が入る.
[1.6] http://www.w3.org/Conferences/Overview-WWW.html

2. 言語リソース,ツール

NLやIRの研究を進めていくためには,言語データ(コーパス)や構文解析器
(パーザ)などの各種ツールが必要となります.近年では,新聞記事など日本
語のコーパスも整備されつつあります.言語データの共有を積極的に行ってい
る奈良先端科学技術大学院大学松本研のページ「言語データのまとめ」[2.1] は,国内外のコーパスに関する網羅的なリンク集です.他にも,海外における
コーパスへのリンクをまとめたものとしてUniversity
of Rochester Linguistics Departmentのページ[2.2]などがあります.また,情報検索シス テムの評価に用いられる日本語コーパスとして,情報処理学会データベース研
究会を中心に作成された「情報検索システム評価用テストコレクション
BMIR-J2」[2.3]があります.

ツールに関しては,北陸先端科学技術大学院大学奥村研のページ[2.4]に,日本語を解析するためのツールの情報等がまとめられています.海外に目を向
けると,The Natural Language Software Registryというページ[2.5]に大量 のツール情報が記載されています.

[2.1] http://cactus.aist-nara.ac.jp/lab/resource/resource.html
[2.2] http://www.ling.rochester.edu/links/archives.html
[2.3] http://www.ulis.ac.jp/~ishikawa/bmir-j2/
[2.4] http://galaga.jaist.ac.jp:8000/nlp/link/nlp_WWWserver-j.html#tools
[2.5] http://www.dfki.de/lt/registry/

3. Hubサイト

Hubサイトとは,特定の分野に関する情報を集めた,いわゆるリンク集のこ
とです.もはや検索エンジンを使っても必要な情報にたどりつけない現状では,
その分野のリソースを網羅したHubサイトを見つけることが,効率よく情報を
得るための最も良い方法の一つです.例えば,上でも紹介した,北陸先端大奥
村研の「自然言語に関するWWW リンクリスト
[3.1]は,その好例です.国内外の大学,企業,会議情報,コーパス,ツールなどの情報を一覧することがで
きます.海外では,例えばLDC(Linguistic Data
Consortium)のリンク集[3.2] などがよくまとまっています.情報検索一般[3.3],情報フィルタリング[3.4] に関するhubも役に立ちます.また,「日本の
Search Engine のリスト (I)」 [3.5]から,日本語で書かれた様々な情報にアクセスすることができます.ま
た,京都大学の馬場氏による「日本語全文検索エンジンソフトウェアのリスト」
[3.6]には,フリーの日本語全文検索エンジンの紹介など,研究者にとって非
常に役に立つ情報が満載されています.

[3.1] http://galaga.jaist.ac.jp:8000/nlp/link/nlp_WWWserver-j.html
[3.2] http://www.ldc.upenn.edu/ldc/sites/index.html
[3.3] http://web.syr.edu/~diekemar/ir.html
[3.4] http://www.clis.umd.edu/dlrg/filter/
[3.5] http://www.ingrid.org/w3conf-bof/search.html
[3.6] http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

4. Authorityサイト

Authorityサイトとは,その分野の研究者がwatchしているような魅力的な
サイトのことです.例えば,電子図書館や情報の可視化に関しては,Xerox
Parc研究所のWeb page[4.1]は見逃せないものの一つです.また,ユーザイン
ターフェイスの教科書で有名なUniversity of
MarylandのBen Shneidermanの "On-line
Library of Information Visualization Environments"
[4.2]も, 魅力的な研究を紹介しています.

近年,インターネット文書を翻訳するためのソフトウアエアが山ほど販売さ
れています.それぞれに特長があるとは思うのですが,いったいどれが一番翻
訳精度が高いのでしょうか? [4.3]では,いくつかの例文を使って各社の翻訳 エンジンの翻訳精度を比較しています.各エンジンのバージョンアップに合わせて頻繁に更新されており,開発者にもユーザにも参考になるページです.

おなじように,あまたある検索ロボットの比較評価というのもおもしろい
テーマです.The Web Robots Pages[4.4]から,Web robotのリストやFAQを たどることができます.また,Danny
Sullivanが編集するSearch Engine Watch[4.5]には,英語圏の主要検索エンジンの特徴や評価など,充実したペー
ジが掲載されています.日本では,浅井氏の「検索デスク」というサイト[4.6]で,国内外の主要な検索エンジンの評価が継続して行われています.

[4.1] http://www.parc.xerox.com/projects.html
[4.2] http://www.otal.umd.edu/Olive/
[4.3] http://www.bekkoame.ne.jp/~oto3/
[4.4] http://info.webcrawler.com/mak/projects/robots/robots.html
[4.5] http://searchenginewatch.com/
[4.6] http://www.bekkoame.or.jp/~asaisan/

5. 番外編

Web上では,特許検索[5.1]から郵便書留や小包のトラッキング[5.2]まで, 様々な検索システムが存在します.ちなみに,神奈川県の奥地に勤務する著者
が最近もっとも良く使う検索エンジンは,[4.6]で首位を保っている AltaVista[5.3]でもGoo[5.4]でもなく,時刻表に連動して,出発時間あるいは
到着時間にもっともマッチする経路情報を表示くれる東芝の「駅前倶楽部」[5.5]です.これを使えるようになってから,社外で行われる会議に(ずいぶん)
遅刻しないようになりました.

[5.1] http://patent.womplex.ibm.com/
[5.2] http://www.postal.mpt.go.jp/
[5.3] http://www.altavista.com/
[5.4] http://www.goo.ne.jp/
[5.5] http://ekimae.toshiba.co.jp/

6. おわりに

今回は,NL/IR分野でのブックマークを紹介しました.「私のブックマーク」
では,これからも人工知能に関連する様々な分野の情報を紹介して頂く予定です.
(担当および本号の著者: 日本IBM東京基礎研究所 浦本 直彦, uramoto@jp.ibm.com)