含有位置坐标树的Web页面分析和内容提取框架

被引:10
作者
封化民
刘飚
刘艳敏
方勇
宋国森
机构
[1] 北京100876
[2] 北京邮电大学电信工程学院
[3] 北京电子科技学院信息安全与保密重点实验室
[4] 燕山大学信息工程学院 北京100070
[5] 燕山大学信息工程学院
[6] 秦皇岛066004
关键词
坐标树; 页面结构分析; 内容抽取; DOM; 启发式规则;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.009
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。
引用
收藏
页码:1767 / 1771
页数:5
相关论文
共 6 条
[1]  
Discovering informative content blocks from web documents. Lin S-H,Ho J-M. Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining(SIGKDD’ 02 ) . 2002
[2]  
Web page cleaning for web mining through feature weighting. YI Lan,LIU Bing. Proceedings of Eighteenth International Joint Conference on Artificial Intelligence(IJCAI -03 ) . 2003
[3]  
Fact or fiction: Content classification for digital librarie. Finn A,Kushmerick N,Smyth B. Joint DELOS-NSF Workshop on Personalisation and Recommender Systems in Digital Libraries . 2001
[4]  
Recognition of common areas in web page using visual information: A possible application in a page classification. Kovacevic M. Proceedings of ICDM02 . 2002
[5]  
VIPS: A Vision-Based Page Segmentation Algorithm. DENG Cai,YU Shipeng,WEN Jirong,et al. Microsoft Technical Report , MSR-TR- . 2003
[6]  
DOM based content extraction of HTML documents. Gupta S,Kaiser G,Neistadt D,et al. Proc of the 12th World Wide Web Conference (WWW 2003) . 2003