含有位置坐标树的Web页面分析和内容提取框架

被引：10

作者：

封化民

刘飚

刘艳敏

方勇

宋国森

机构：

[1] 北京100876

[2] 北京邮电大学电信工程学院

[3] 北京电子科技学院信息安全与保密重点实验室

[4] 燕山大学信息工程学院北京100070

[5] 燕山大学信息工程学院

[6] 秦皇岛066004

来源：

清华大学学报(自然科学版) | 2005年 / S1期

关键词：

坐标树; 页面结构分析; 内容抽取; DOM; 启发式规则;

D O I：

10.16511/j.cnki.qhdxxb.2005.s1.009

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。

引用

页码：1767 / 1771

页数：5

共 6 条

[1]

Discovering informative content blocks from web documents. Lin S-H,Ho J-M. Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining(SIGKDD’ 02 ) . 2002

[2]

Web page cleaning for web mining through feature weighting. YI Lan,LIU Bing. Proceedings of Eighteenth International Joint Conference on Artificial Intelligence(IJCAI -03 ) . 2003

[3]

Fact or fiction: Content classification for digital librarie. Finn A,Kushmerick N,Smyth B. Joint DELOS-NSF Workshop on Personalisation and Recommender Systems in Digital Libraries . 2001

[4]

Recognition of common areas in web page using visual information: A possible application in a page classification. Kovacevic M. Proceedings of ICDM02 . 2002

[5]

VIPS: A Vision-Based Page Segmentation Algorithm. DENG Cai,YU Shipeng,WEN Jirong,et al. Microsoft Technical Report , MSR-TR- . 2003

[6]

DOM based content extraction of HTML documents. Gupta S,Kaiser G,Neistadt D,et al. Proc of the 12th World Wide Web Conference (WWW 2003) . 2003

← 1 →