特集: WWW上の情報の知的アクセスのためのテキスト処理
「WWW上の情報の知的アクセスのためのテキスト処理」にあたって
奥村 学
p. 295
百科事典としてのWWW
藤井 敦
p. 296
<概要>World Wide Webに存在するページの数は増加の一途をたどり,携帯端末があればいつ でもどこでもアクセスできる.そこで,辞書を引いたり,誰かに質問する代わりに, Web上の検索サイトやポータルサイトを使って調べ物をする機会が増えている. すなわち,Webを百科事典として使うことが日常化している.本稿は,Webの事典的利 用を高度化する種々の技術について,情報検索,知識工学,Webマイニング等の観点 から解説する.具体的には,自然言語の質問文によってWebから回答を探し出す質問 応答システムや,Webページの内容解析によって事典的なコンテンツを自動構築する 研究事例について紹介する.
WWWからの情報抽出 ―Webラッパーの自動構築―
山田 泰寛,池田 大輔,坂本 比呂志,有村 博紀
p. 302
<概要> インターネット利用の急速な発展にともない,WebページやXMLデータ等の多様なテキ ストデータから,利用者にとって有用な情報を抽出し,再構成するための情報抽出が 重要な技術となっている.このWebからの情報抽出の鍵となる技術が,Webラッパーの 自動生成である. Webラッパーとは,利用者が指定した特定の情報をWebページから抽出するためのプロ グラムである.一般に,多様な構造と内容のWebページに対して,抽出対象となる情 報を利用者が厳密に指定することは難しい.そのため,多くのWebからの情報抽出シ ステムにおいて,利用者の意図をうまくとらえるために,Webラッパーの生成に機械 学習手法を用いている.本解説では,Webラッパーの自動構築手法に関して,アルゴ リズムに焦点をあてて,解説する. はじめに2章では,現在提案されているWebラッパーの半自動および自動生成手法に ついて概観する.これらの自動生成手法から,3章では,教師付き学習に基づくラッ パー自動生成手法をいくつか選び,紹介する.さらに4章では,最近注目を集めてい る教師なし学習に基づくラッパー自動生成手法を解説する. 最後に5章で,まとめと今後の課題を与える.
WWW上のテキスト情報の知的統合
難波 英嗣
p. 311
<概要> 現在のWeb検索エンジンは,検索結果を検索キーワードとの適合度等に応じて順序付 けされたリストとして提示するのが主流であるが,検索結果が膨大な場合,そこから ユーザが目的の情報を探し出すのは困難であることが多い.このような問題が生じる 原因の一つは,多くのWeb検索エンジンが汎用的な目的で作られているということと 関係する.汎用的なWeb検索エンジンは,様々な形式,多様なトピックのテキストを 処理する必要性から,テキストの内容に十分に踏み込んだ処理や,特定のテキスト 形式に特化した処理が取りづらい.これに対し,特定のトピックやジャンルのテキ ストを自動的に収集・統合し,わかりやすく提示するシステムの開発や研究が, 近年急速に増えつつある.本稿では,このようなシステムを構築する際に必要 となる技術や手順について述べ,関連研究やシステムを紹介する.
インターネットからの評判情報検索
立石 健二,石黒 義英,福島 俊一
p. 317
シリーズ特集:研究のツールボックス(1)
「研究のツールボックス(1)」にあたって
神嶌 敏弘
p. 324
Jena―セマンティックWebアプリケーション開発のためのJavaフレームワーク
上田 俊夫,和泉 憲明,森田 幸伯,橋田 浩一
p. 325
<概要> Jenaはヒューレットパッカード研究所が公開しているセマンティックWebのためのJava フレームワークである.セマンティックWebはRDFで記述したメタデータに基づいてコ ンピュータが意味処理を行うことを目指しているが,JenaはこのRDFを適切に処理す るためのJavaライブラリ群であり,RDFのパーサ, RDFを蓄積可能なリポジトリ,SQLラ イクなRDFクエリ言語,オントロジーをサポートする推論エンジンなどのサブモジュー ルなど数多くの機能を有している.これらの機能を適切に組み合わせることにより, セマンティックWebのアプリケーションを比較的容易に開発できる.本稿ではJenaの 入門編として,RDFによるメタデータの記述、ファイルの入出力,クエリ言語の使い方, オントロジーを用いた簡単な推論についてサンプルプログラムを使って概説した.
茶筌と南瓜による日本語解析 ―構文情報を用いた文の役割分類―
松本 裕治,高岡 一馬,浅原 正幸,工藤 拓
pp. 334
BioRubyによるデータベースアクセスと配列解析
片山 俊明
p. 340
<概要> BioRuby は国産の Ruby 言語によるオープンソースのライブラリで,バイオインフォ マティクスでよく使われるデータベースへのアクセスやエントリのオブジェクト化, ゲノムや遺伝子の配列解析に使われるアプリケーションの実行と結果の解析を中心に, 様々な機能が実装されている.研究の現場では多様なフォーマットのデータを扱うた め,目的ごとに異なるカスタムメイドなデータ解析の流れを組み立てる必要があるが, BioRuby はこのための使いやすいツールキットとして初心者にも役に立つソフトウェ アである.具体的な例として,配列データベースから必要な情報を抽出し,BLAST による相同性検索など基本的な配列解析の手順を解説し,さらに KEGG など国内の データベースや公共サービスを活用してより高度な解析やアノテーションを行う 方法を紹介する.
慢性ウイルス性肝炎データマイニングへのWekaの適用
阿部 秀尚,山口 高平
p. 347
<概要> ニュージランドのWaikato大学を中心に開発が進められているWekaは,データベース からの知識発見におけるデータの前処理,データマイニング,結果の後処理を実行す るための多様な手法を実装したツールである.本稿では,最初にWekaの基本的な使用 法について述べ,次に具体例として特定領域研究「アクティブマイニング」の共通デ ータを用いた慢性ウィルス性肝炎データマイニングへのWekaの適用について述べる. この適用を通して,Wekaが提供するコマンドラインを利用したデータの前処理,GUI を利用した分類学習と相関ルール学習の実行手順や可視化機能について紹介する.
解説
スキルサイエンス
古川 康一
p. 355
情報推薦・情報フィルタリングのためのユーザプロファイリング技術
土方 嘉徳
p. 365
<概要> 本稿では,情報推薦及び情報フィルタリングで必要となるユーザプロファイルをどの ようにして獲得し,モデル化するかについて解説する.ユーザプロファイル構築の基 礎技術として適合性フィードバックがあるが,まずその基本的な考え方を示し,問題 点を挙げる.次に,それら問題点に対して近年行われている研究を,ユーザの負担, 興味対象を絞り込める粒度,ユーザプロファイル構築に必要な時間,そしてビジネス 的な実現可能性の4点から分類を行う.また,時間が経つにつれてユーザの興味が変 化していった場合には,構築したユーザプロファイルを更新していく必要がある.最 後に,その更新方法や興味の変化を検出する方法について,いくつかの方法論を紹介 し,今後の方向性を示す.
連載解説:「データマイニング実践家達の声(1),(2)」
データマイニング実用化:概観と展望
鷲尾 隆
p. 373
マーケティングにおけるデータマイニングの利用
矢田 勝俊
p. 376
私のブックマーク
進化的計算
筒井 茂義
p. 382
社会へのアンテナ p.386
学生フォーラム p.390
会議報告 p.393
書 評 p.398
カレンダー p.400
会 告 pp.1-8
2004年度人工知能学会全国大会(第18回)プログラム pp.1-8