Vol.16 No.6 (2001/11) テキストマイニング


私のブックマーク

テキストマイニング

1.はじめに

インターネットやイントラネットにおいて増え続けている膨大な情報の中から有用な知識を発見するテキストマイニングが注目されている.テキストマイニングは情報抽出,テキスト分類,要約などの自然言語処理と情報検索やデータマイニング,機械学習の組み合わせで実現される.すでに人工知能学会においても,本学会誌2001年3月号の特集においてテキストマイニングが取り上げられているので,記憶に新しい読者の方も多いことであろう.本報では,その中の論文のひとつである「テキストマイニング-事例紹介」の付録であるリンク集を中心に,テキストマイニングの研究や活用に有用と思われるWebページを紹介する.

2.理論編

テキストマイニングという言葉はよく耳にするが,具体的にどういう技術を指すのかがはっきりしない方には,テキストマイニングに関する解説がWebからも取得できるので参考になる.
Marti Hearst(UC Berkeley)による“Untangling Text Data Mining”, http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.htmlと題したACL99における講演の論文では,データマイニング,情報検索,コーパスに基づく言語処理と比較しながらテキストマイニングが定義されている.タイトルの通りテキストマイニングとは何を指しているのかがわかるので,テキストマイニングの概論になる.
また,Marti Hearstのインタビューをまとめた記事”Mining in Textual Mountains”, http://mappa.mundi.net/trip-m/hearst/はテキストマイニングをさらにやさしく解説したものになっている. 一方,Mark Dixonは“An Overview of Document Mining Technology”, http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm.htmlの中で,テキストマイニングの歴史や処理手順,評価方法について解説している.
また,Wanda Pratt(Univ. of California, Irvine)のテキストマイニングについての講義のシラバス(2001年春), http://www.ics.uci.edu/~pratt/courses/text-mining.htmlには,情報抽出,情報可視化,複数文書要約などテキストマイニングの要素技術に関する論文が掲載されており,それらはオンラインで入手できる.この分野について幅広く勉強するのには非常に参考になるだろう.

[キーパーソン]

ここでは,テキストマイニングの研究をリードしてきたキーパーソンを取り上げる.テキストマイニングの研究には大きく分けて2つのアプローチがとられてきた.
ひとつはデータマイニングの研究から派生して,データマイニングの手法を数値データだけでなくテキストデータにも適用させるアプローチである. Ronen Feldman(Bar-Ilan Univ.), http://www.cs.biu.ac.il/~feldman/はデータマイニングの技術をテキストデータに適用するアプローチをとった第一人者である.
Helena Ahonen-Myka(Univ. of Helsinki), http://www.cs.helsinki.fi/u/hahonen/も同様のアプローチをとってきた.
もうひとつのアプローチは自然言語処理の研究をベースとしてテキスト分類や情報検索を発展させてテキスト集合から知識発見に繋げるアプローチである. Martin Rajman(Swiss Federal Institute of Technology in Lausanne), http://liawww.epfl.chは自然言語処理をバックグラウンドとしテキストマイニングに古くから取り組んでいる. Marti Hearst(UC Berkeley),
http://www.sims.berkeley.edu/~hearst/
は自然言語処理や情報検索をバックグラウンドとして,テキストマイニングをリードしてきた.
Haym Hirsh(Rutgers Univ.), http://athos.rutgers.edu/~hirsh/は機械学習をベースに情報検索やテキスト分類に取り組んできた.
また,へルシンキ工科大学のチームは,自己組織化マップアルゴリズムに基づいてテキスト集合を組織化して2次元マップを作成するツールWEBSOM, http://websom.hut.fi/websom/を開発している.このシステムはインターネットのニュースグループを対象としたナビゲーションを実現している.

[国際会議・ワークショップ]

テキストマイニングは人工知能,自然言語処理,データマイニングといった分野の境界領域にあるので,テキストマイニングに関する国際会議も多岐にわたっている.

3.実践編

テキストマイニングには実際に大量にテキスト情報を抱えている企業からの期待が大きい.現状の自然言語処理技術やサーチエンジンを利用して現実的なソリューションを目指す方向も目立っている.
Dan Sullivanによる“The Need for Text Mining in Business Intelligence”, http://www.dmreview.com/portal.cfm?NavID=91&EdID=2791&PortalID=201&Topic=64では,ビジネスの高度化にはデータマイニングだけでは不十分であり,ある現象が起こる理由を知るにはテキスト情報が不可欠であるとして,データウェアハウスへのテキスト情報の統合について述べられている.
テキストマイニングに関するソフトウェアも数多く出ているので,これらのソフトウェアを導入する場合に参考になるWebページもある. Patricia Sotoによる“Text Mining: Beyond Search Technology”, http://www.db2mag.com/db_area/archives/1998/q3/ではテキストマイニングツール導入指南とでも言うべき程,導入前の検討課題やケーススタディが載っている.
同様に,Demio Corporationによる“Text Mining and the Knowledge Management Space”, http://www.dmreview.com/portal_ros.cfm?NavID=92&WhitePaperID=80&PortalID=17でも,とりわけ何かを調べようとするときに必要になる情報がどの程度既知であるかというレベルによって,Knowledge Repository, Knowledge Sharing,Knowledge Discovery という分類に区分し必要なソリューションを案内したり,どんな情報がテキストマイニングに向いているかを説明している. Tan Ah Hweeによる“Text Mining: Knowledge Discovery from Text”, http://www.bic.nus.edu.sg/99/sympo/KDD/TAH/では,自由形式のテキストからある程度構造化された中間形式にするText Refiningとその中間形式の種類,中間形式からパターンや知識へと洗練するKnowledge Distillationを軸にして,テキストマイニングの各製品の特徴がまとめられている.

[ソフトウェア・商用サイト]

ここでは,テキストマイニングを実現したソフトウェア,テキストマイニングが使われている商用サイトを取り上げる.
日本IBMによるTAKMI, http://www.trl.ibm.com/projects/s7710/tm/takmi/takmi.htmはコールセンタへの問い合わせの分析を目指したシステムである.名詞句と意図の組合わせを用いることが特徴である.
Kent Ridge Digital Labs の Text
Mining Group, http://www.krdl.org.sg/Research/CurProj/textmining/textmining.html
のツールはシンガポールのグループらしく英語の他に中国語やマレー語に対応するなどの特徴がある.
ジャストシステムのConceptBase, http://www.justsystem.co.jp/cb/は類似文書検索を格としている. Tacit Knowledge SystemsのKnowledgeMail, http://www.tacit.com/products/knowledgemail.htmlはメールのやり取りから専門知識を構築する.
solutions-unitedの!metaMarker, http://www.solutions-united.com/products_information.htmlはXMLベースのメタデータを自動生成する.
他にも以下の製品が存在する.

一方,テキストマイニングを用いた商用サイトとして,FlipDog.com, http://www.flipdog.comという求人情報サイトがある.このサイトにはWhizBang! Labs, http://www.whizbanglabs.comが開発した,Web Crawlerと情報抽出を用いてデータベースを構築するという技術が用いられている. Whizbang! LabsのメンバーにはAT&TにいたFernando Pereiraや,CMUにいたTom MitehcellやAndrew McCallumらが加わっていることもあり,今後の動向が注目される.

4.おわりに

テキストマイニングに関するWebページを理論編と実践編に分けて取り上げたが,現実には両者の間にはまだまだ大きなギャップがある.しかしながら,テキストマイニングをうたうソフトウェアの数が増え続けており,実際に入手して評価することができなかったものの,テキストマイニングは着実に市場に浸透していることが伺える.


長谷川 隆明(日本電信電話(株) NTTサイバースペース研究所)