学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于Web的HTML网页清洗技术的研究与实现
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
刘斌
机构
:
[1]
华北电力大学(北京)
关键词
:
DOM树;
页面清洗;
格式化;
HTML文档;
D O I
:
暂无
年度学位
:
2007
学位类型
:
硕士
导师
:
郑玲;
摘要
:
随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一。但是Web页面中包含了很多与主题无关的信息,例如弹出的广告、多余的图片以及一些无关的链接等。这些信息严重影响了对Web中有用信息的提取,因此网页清洗变得十分重要。本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上,提出了基于DOM(Document Object Model—文档对象模型)树结构的网页清洗技术,并在Eclipse平台上开发了一个网页清洗工具。该工具能够有效地清洗网页中大多数与主题无关的信息,具有很好的实用价值和应用前景。
引用
收藏
页数:54
共 7 条
[1]
Innovating web page classification through reducing noise
[J].
论文数:
引用数:
h-index:
机构:
Li, XL
;
Shi, ZZ
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Inst Comp Technol, Key Lab Intelligent Informat Proc, Beijing 100080, Peoples R China
Shi, ZZ
.
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY,
2002,
17
(01)
:9
-17
[2]
Eclipse精要与高级开发技术.[M].张云涛;龚玲编著;.电子工业出版社.2005,
[3]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[4]
HTTP/1.1的分析
[J].
论文数:
引用数:
h-index:
机构:
徐健
;
论文数:
引用数:
h-index:
机构:
王涛
.
西南师范大学学报(自然科学版),
2004,
(02)
:315
-319
[5]
HTTP在嵌入式系统中的应用及扩展
[J].
常速
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学电子与信息工程系
常速
;
祝朋
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学电子与信息工程系
祝朋
;
论文数:
引用数:
h-index:
机构:
杨宗凯
.
工业控制计算机,
2002,
(08)
:17
-19
[6]
嵌入式系统中HTTP协议的实现
[J].
论文数:
引用数:
h-index:
机构:
王超
;
论文数:
引用数:
h-index:
机构:
胡晨
;
论文数:
引用数:
h-index:
机构:
刘新宁
;
论文数:
引用数:
h-index:
机构:
宋红东
;
论文数:
引用数:
h-index:
机构:
田渊
.
电子器件,
2002,
(01)
:93
-96
[7]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04
←
1
→
共 7 条
[1]
Innovating web page classification through reducing noise
[J].
论文数:
引用数:
h-index:
机构:
Li, XL
;
Shi, ZZ
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Inst Comp Technol, Key Lab Intelligent Informat Proc, Beijing 100080, Peoples R China
Shi, ZZ
.
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY,
2002,
17
(01)
:9
-17
[2]
Eclipse精要与高级开发技术.[M].张云涛;龚玲编著;.电子工业出版社.2005,
[3]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[4]
HTTP/1.1的分析
[J].
论文数:
引用数:
h-index:
机构:
徐健
;
论文数:
引用数:
h-index:
机构:
王涛
.
西南师范大学学报(自然科学版),
2004,
(02)
:315
-319
[5]
HTTP在嵌入式系统中的应用及扩展
[J].
常速
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学电子与信息工程系
常速
;
祝朋
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学电子与信息工程系
祝朋
;
论文数:
引用数:
h-index:
机构:
杨宗凯
.
工业控制计算机,
2002,
(08)
:17
-19
[6]
嵌入式系统中HTTP协议的实现
[J].
论文数:
引用数:
h-index:
机构:
王超
;
论文数:
引用数:
h-index:
机构:
胡晨
;
论文数:
引用数:
h-index:
机构:
刘新宁
;
论文数:
引用数:
h-index:
机构:
宋红东
;
论文数:
引用数:
h-index:
机构:
田渊
.
电子器件,
2002,
(01)
:93
-96
[7]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04
←
1
→