/ プログラム/ 発表一覧/ 著者一覧/ 企業展示一覧/ jsai2011ホーム /

3F3-5 ウェブページ内の階層構造を考慮した本文抽出技術

06月03日(Fri) 13:00〜14:40 F会場(48名-会議室702)
3F3 Webマイニング「話題・属性抽出」

演題番号3F3-5
題目ウェブページ内の階層構造を考慮した本文抽出技術
著者藤田 尚樹(日本電信電話株式会社 NTTサイバーソリューション研究所)
安田 宜仁(日本電信電話株式会社 NTTサイバーソリューション研究所)
片渕 典史(日本電信電話株式会社 NTTサイバーソリューション研究所)
片岡 良治(日本電信電話株式会社 NTTサイバーソリューション研究所)
時間06月03日(Fri) 14:00〜14:20
概要ウェブページは広告などページの主題以外の情報を含み,それらは例えば検索エンジンの検索精度低下を引き起こす。そのため本文抽出技術は重要視されている.本稿ではHTML中で本文(主題が記述されている部分)は1つもしくは複数のノード配下の全てのノードとして抽出できるという仮説のもと,CRFを用いた本文判定結果を階層構造を考慮して上位ノードの結果と下位ノードの結果の多数決で再判定する手法を提案する.
論文PDFファイル