Vol.15 No.1 (2000/01) マルチリンガル情報アクセス


私のブックマーク

マルチリンガル情報アクセス

新たに「私のブックマーク」を担当することになりました新編集委員の林 良彦(NTTサイバースペース研究所) と申します.今回は自己紹介も兼ねて,最近私が関わっている「マルチリンガル情報アクセス」に関するサイト/ページをご紹介致します.今後とも「私のブックマーク」を会員の皆様の情報収集に役立つコーナーとしていきたいと思いますので,よろしくご支援をお願い申し上げます.

 

0. 「マルチリンガル情報アクセス」

さて,「マルチルンガル情報アクセス」と言った時,皆様はどのようなことを思い浮かべられますか?
ある方は,多言語対応のブラウザや色々な言語のフォントのことを思い浮かべられるかもしれません.機械翻訳のことを思われる方もいらっしゃるでしょうし,日本語のキーワードで英語のページが検索できるようなサーチエンジンのことを考える方もいらっしゃるでしょう.このように「マルチリンガル情報アクセス」という言葉の意味するところはまだ定まっているとは言えませんが,インターネットの発展とともに日本語,英語以外のドキュメントにアクセスする/しなければならない機会も増えてくるものと思われます.また,このような状況を支援するための研究も進展してきています.今回は,

  • 言語の壁を越える情報検索/ナビゲーションを目指すクロスランゲージ情報アクセスの研究に関連するサイト
  • 実際に「マルチリンガル情報アクセス」するのに役立つサイト
  • その他の”興味深い”サイト

について,特に「クロスランゲージ情報アクセスの研究に関連するサイト」を中心としてご紹介します.

 

1. クロスランゲージ情報アクセスの研究

1.1 クロスランゲージ情報検索とマルチリンガル情報検索

コンピュータによる情報検索の研究は古い歴史を持っており,1950年代後半には,”IR: Information Retrieval”という語が使われるようになっていたと言います.今日,私達のWeb上の情報収集に欠かせないツールとなっているサーチエンジンも,いわゆるテキスト情報検索技術がその基盤となっています.(テキスト情報検索一般については,多くのWebサイトがあります.比較的有名なのは,Anne
Diekema さんの “INFORMATION RETRIEVAL & NATURAL LANGUAGE PROCESSING” [1]でしょうか.Scott Weiss さんの IRページ [2]もあまり知られていないかもしれませんが特に初学者の方には使いやすいと思います.また,Paaiさんの text utilities のページ [3]からは,実際に研究上に役に立ちそうなプログラム類がダウンロードできます.それから,もちろん日本IBMの浦本さんによる第一回目の私のブックマーク[4]ももちろん忘れてはいけませんね.)

多くの人々に使われているサーチエンジンとして,AltaVista[5]があります.AltaVistaのAdvanced Text Search [6]のページからは,日本語も含めて25の言語で検索キーワードを入力することができます.また,検索結果には,”Translate”と書かれたリンクが付与され,英語-フランス語を始めとする10の言語ペアについては,検索結果のページを自動翻訳させることができます.このような機能を持つサーチエンジンは,「目的の言語における質問のキーワードは自分で入れられるけれども,テキストを読むほどにはその言語に習熟していない」人にとって大きな助けとなります.しかしながら,自分の選んだ言語(例えば日本語) によるキーワードによって,それと異なる言語 (例えば英語)によるドキュメントを検索することはできません.

クロスランゲージ情報検索 (Cross-Language Information Retrieval. 以下,CLIRと略す)は,このような言語の壁を越える検索を実現しようとするもので,インターネットが世界的に普及の度合いを増した1996年ごろより活発に研究が行われるようになってきました.CLIRの定義は,その歴史的背景とともに“Cross-Language Information Retrieval Defined” [7]と題されたページに述べられています.これによれば,AltaVistaは,Multilingual Information Retrieval を実現していると言えますが,CLIRを実現しているとは言えません.

 

1.2 クロスランゲージ情報検索

さて,幸いなことに(?),CLIRについては,多くのサイトをここに挙げる必要はありません.それは,”CLIRにおけるポータルサイト”と称されるサイトがあるからです.メリーランド大学のDouglas Oard さんによる “Cross-Language Information Retrieval Resources”  [8]がそのサイトです.上記のCLIRの定義を与えているページもこのサイトにあるものです.およそCLIR  に関するWeb上に公開されている情報のほとんどは,このページから辿れるものと考えられています.彼自身がこのページの直下に置いているように,D-Lib Magazine [9]に掲載された “Serving Users in Many Languages” [10]という記事は,(少し古くなってしまったかもしれませんが)もっともコンパクトにまとまったこの分野の入門的な解説だと思います.

この分野では,1996年以降多くの国際的なワークショップや会合が行われるようになっています.また,多くのものについては,Web上でプロシーディングスを見ることができるようになっています.これを書いている時点(1999年) で直近に行われたこの分野に関連する会合としては次の三つがあります.

最初のものは,「機械翻訳サミットVII」 [14]の併設ワークショップとして開催されたものです.機械翻訳サイドの方々からの発表は少ないようでしたが,これまでおもに情報検索サイドの人々が主であったこの分野に,機械翻訳や自然言語処理関係の人たちも興味を示してきていることを端的に示す会合だったと思われます.(なお,執筆の時点ではonline proceedings準備中です)

二番目のものは,いわゆる “TREC (Text REtrieval Conference)” [15]の日本版とでもいうべきコンテスト形式のワークショップでしたが,クロスランゲージ検索(言語横断検索) に大きな重点が置かれていました.また,コンテストに用いられた日本語-英語のテストコレクションも公開されるということで今後のこの分野の日本での研究を大きく促進することになると思われます.

三番目のものは,ディジタルライブラリ関係の代表的な会議である ACM DL [16]と 情報検索の代表的な会議である SIGIR[17]の共催ワークショップであり,CLIRにとどまらず非テキストメディアやメタデータなどに及ぶ広い話題が議論されたようです.両分野の接点となるような領域においてもCLIR やマルチルンガル情報アクセスが重要なトピックとなってきていることを示していると考えられます.

これらの三つの会議の性格を見てもわかるように,CLIRおよび広くマルチリンガル情報アクセスは,それ自体の技術の追求とともに,関連領域との交流を深めてきていることがわかります.

 

1.3 クロスランゲージ情報アクセス

ここでは,クロスランゲージ情報アクセスという言葉を,「クロスランゲージ情報検索+ナビゲーション支援」という観点で用いています.ここでいう「ナビゲーション支援」とは,検索結果の中から適切な情報を選択したり,検索結果のドキュメントを実際に利用したりする局面での支援の意味で用いています.例えば,検索結果の視覚化や対象ドキュメントの要約や翻訳なども,これに含めて考えます.最近の傾向としては,query translation や corpus の利用などのCLIRの要素技術を高めようとする研究だけでなく,テキスト要約や機械翻訳などとCLIRシステムを統合することによって,総合的なシステムを構築しようとする動きが明確になってきました.このような研究開発を行っている代表的な研究機関としては,ニューメキシコ州立大学のCRL(アメリカ) [18]や DFKI (ドイツ) [19]などがあります.前者では,Arctosと呼ばれるシステムのデモ [20]が,後者では,MULINEXと呼ばれるシステムのデモ [21]が稼動しています.これらのシステムを,(例えば)AltaVistaが日常の道具として欠かせないというのと同列のレベルで比較することはまだできませんが,今後の可能性についての雰囲気をつかむことができると思います.ただし,日本語は残念ながレパートリーには入っていませんが.

 

2. 「マルチリンガル情報アクセス」するのに役立つサイト

現在では,標準的なWebブラウザにおいても,必要ならばフォントさえ準備すれば多くの言語によるドキュメントをブラウザ上で表示することができます.また,フォントもメーカのサイトなどからダウンロードできる場合が多く,さらには入力手段(Input Method) についても,Microsoft の Global IME のように無償でダウンロードできるものあります.その意味で必ずしも最新の内容ではなくなってしまいましたが,今でも参考になる書籍として,「マルチリンガルWEBガイド[22],三上吉彦,関根謙司,小原信利共著,オライリージャパン,1997年刊」があります.また,この書籍の内容を補完する便利なサイトとして,著者の一人である三上さんによるページ“The Multilingul Web Guide” [23]があります.これに関連して圧巻なのは,三上さんによる“Kotoba Home Page” [24]で,ここでは英語からクリンゴン語(!)までに至る多くの言語についての紹介や,参考資料へのリンクが収集されています.英語以外の情報を扱うのに困った時や,世界の言語について知りたい時に真っ先に訪れるべきポータルサイトとして強くお薦めできます.

上記のサイトで一つ残念なことがあるとすれば,Web上で検索できる辞書や,パソコン上にダウンロードできるようなフリーな辞書の情報がまとめられていないことがあります.前者については,その名も“A Web of On-line Dictionaries” [25]というサイトがあります.約200種の言語について,1000以上の辞書へのリンクを収録しているほか,様々な言語の文法や形態論についての解説へのリンクなども多く含んでおり,自分で「マルチリンガル情報アクセス」する場合だけでなく,関連する研究をする場合にも大いに参考になると思われるサイトです.先の三上さんといい,このサイトを運営しているRobert Beard さんといい,彼等の情熱に驚かされるとともに深く感謝したいと思います.“翻訳のためのインターネットリソース”[26]も日本語によるポータルサイトとして利用価値が高いと思います.このほか,パソコン上で自由に個人使用できる辞書引きソフトウェア[27]もあります.画面上の文字を認識するOCR技術と辞書引きが連動しているのが大きな特徴です.

3. その他の興味深いサイト

だんだんと紙面が尽きてきてしまいました.アドホックにいくつかの興味深いサイトを挙げてみましょう.

  • Multilingualism on the Web [28]:
    Web上の言語統計に関する情報から,言語資源,機械翻訳,自然言語処理研究まで多くの話題をカバーしています.
  • Multilingual HTML Browser Project [29]:
    ローカルにフォントを持たずにマルチリンガルドキュメントを表示するブラウザを研究している図書館情報大学のグループのサイトです.「ブラウザの中にブラウザがあってもいいじゃないか」というのが基本的な発想だと思います.関連するサイトとして「むかしむかし…」[30]があります.百聞は一見にしかず.視覚的にも楽しいページです.
  • Language/Power [31]:
    広く「多言語」に関するニュースやオピニオンなどが投稿されているサイトです.特に社会学的な観点から考察などは,門外漢にも参考になります.ユニコード[32]で記述されているページは,ブラウザによってはうまく表示できないかもしれません.

4. おわりに

ユニコード (とそれをめぐる議論),文字コードと言語の自動認識,機械翻訳,コーパスや情報検索テストコレクションなどの言語資源データなど多くの関連するトピックについて,詳しく触れることができませんでした.しかし,これらのトピックもご紹介したサイトのいずれかから辿って行けるものと思います.「多言語」の観点から見るとインターネットはますます興味深い情報空間となってくると思われます.こんな面白い/有益なサイトもあるよ,という情報がありましたらぜひお知らせ下さい.

References

  1. http://web.syr.edu/~diekemar/ir.html
  2. http://www.cs.jhu.edu/~weiss/ir.html
  3. http://pi0959.kub.nl/Paai/Publiek/
  4. http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/14-1.html
  5. http://www.altavista.com/
  6. http://www.altavista.com/cgi-bin/query?pg=aq&what=web
  7. http://www.clis.umd.edu/dlrg/clir/mlir_definition.html
  8. http://www.clis.umd.edu/dlrg/clir/
  9. http://www.dlib.org/
  10. http://www.dlib.org/dlib/december97/oard/12oard.html
  11. http://www.jeida.or.jp/aamt/mtsummit99/WORKSHOP/
  12. http://www.rd.nacsis.ac.jp/~ntcadm/workshop/work-ja.html
  13. http://www.clis.umd.edu/conferences/midas.html
  14. http://www.jeida.or.jp/aamt/mtsummit99/
  15. http://trec.nist.gov/
  16. http://fox.cs.vt.edu/DL99/
  17. http://info.berkeley.edu/events/conferences/sigir99/
  18. http://crl.nmsu.edu/
  19. http://www.dfki.de/
  20. http://messene.nmsu.edu/ursa/arctos/
  21. http://mulinex.dfki.de/demo.html
  22. http://www.oreilly.co.jp/BOOK/multi.htm
  23. http://www.threeweb.ad.jp/logos/mlweb/
  24. http://www.threeweb.ad.jp/logos/
  25. http://www.facstaff.bucknell.edu/rbeard/diction.html
  26. http://www.kotoba.ne.jp/
  27. http://www.babylon.com/
  28. http://www.ceveil.qc.ca/multieng0.htm
  29. http://mhtml.ulis.ac.jp/
  30. http://www.DL.ulis.ac.jp/oldtales/jp-index.html
  31. http://lp.iss.u-tokyo.ac.jp/
  32. http://www.unicode.org/


( 林 良彦,NTTサイバースペース研究所, hayashi@nttnly.isl.ntt.co.jp
)