基于Web的HTML网页清洗技术的研究与实现

被引:0
作者
刘斌
机构
[1] 华北电力大学(北京)
关键词
DOM树; 页面清洗; 格式化; HTML文档;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一。但是Web页面中包含了很多与主题无关的信息,例如弹出的广告、多余的图片以及一些无关的链接等。这些信息严重影响了对Web中有用信息的提取,因此网页清洗变得十分重要。本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上,提出了基于DOM(Document Object Model—文档对象模型)树结构的网页清洗技术,并在Eclipse平台上开发了一个网页清洗工具。该工具能够有效地清洗网页中大多数与主题无关的信息,具有很好的实用价值和应用前景。
引用
收藏
页数:54
共 7 条
[1]
Innovating web page classification through reducing noise [J].
Li, XL ;
Shi, ZZ .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (01) :9-17
[2]
Eclipse精要与高级开发技术.[M].张云涛;龚玲编著;.电子工业出版社.2005,
[3]
基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[4]
HTTP/1.1的分析 [J].
徐健 ;
王涛 .
西南师范大学学报(自然科学版), 2004, (02) :315-319
[5]
HTTP在嵌入式系统中的应用及扩展 [J].
常速 ;
祝朋 ;
杨宗凯 .
工业控制计算机, 2002, (08) :17-19
[6]
嵌入式系统中HTTP协议的实现 [J].
王超 ;
胡晨 ;
刘新宁 ;
宋红东 ;
田渊 .
电子器件, 2002, (01) :93-96
[7]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04