基于可视布局信息的网页噪音去除算法

被引:24
作者
荆涛
左万利
机构
[1] 吉林大学计算机科学与技术学院 吉林 长春 130012
[2] 吉林大学计算机科学与技术学院
关键词
网页; 噪音; 页面布局;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.
引用
收藏
页码:84 / 87 +98
页数:5
相关论文
共 1 条
[1]  
Discovering informative content blocks from Web documents .2 Lin Shian-hua,Ho Jan-ming. Proceeding of the 8th ACM SIG KDD International Conference on Knowledge Discovery and Data Mining . 2002