/ プログラム/ 発表一覧/ 著者一覧/ 企業展示一覧/ jsai2009ホーム /

2B3-1 教師情報を必要としないWebページ群の主要コンテンツ自動抽出

06月18日(Thu) 15:50〜17:10 B会場(ホール棟5F-52室)
2B3 Webインテリジェンス「webマイニング1」

演題番号2B3-1
題目教師情報を必要としないWebページ群の主要コンテンツ自動抽出
著者吉田 光男(筑波大学大学院)
山本 幹雄(筑波大学大学院システム情報工学研究科)
時間06月18日(Thu) 15:50〜16:10
概要近年のCMSの普及により、Webページにメニューや著作権表示などが過剰に付加され、ページに占める主要コンテンツは縮小している。
本論文では、事前に教師データを準備することなく、また各種閾値を新たに決定することなく、よりシンプルなアルゴリズムで、Webページ群から主要コンテンツを抽出するソフトウェアを提案し、Web上に存在するニュースから主要コンテンツを抽出した実験結果について報告する。
論文PDFファイル