学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于ID3分类算法的深度网络爬虫设计
被引:4
作者
:
王舜燕
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
王舜燕
论文数:
引用数:
h-index:
机构:
李蕾
论文数:
引用数:
h-index:
机构:
吴兵华
机构
:
[1]
武汉理工大学计算机科学与技术学院
来源
:
现代图书情报技术
|
2008年
/ 06期
关键词
:
网络爬虫;
深度网络;
ID3算法;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
摘要
:
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。
引用
收藏
页码:41 / 45
页数:5
相关论文
共 5 条
[1]
ID3算法应用研究
论文数:
引用数:
h-index:
机构:
马瑜
王有刚
论文数:
0
引用数:
0
h-index:
0
机构:
宁夏大学民族预科部
宁夏大学物理电气信息学院
王有刚
[J].
信息技术,
2006,
(12)
: 84
-
86
[2]
近几年国外隐蔽网络研究概述
娄卓男
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学信息管理系
娄卓男
吴志强
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学信息管理系
吴志强
[J].
图书情报工作,
2004,
(01)
: 102
-
104
[3]
ID3算法的一种改进算法
曲开社
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
曲开社
成文丽
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
成文丽
王俊红
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王俊红
[J].
计算机工程与应用,
2003,
(25)
: 104
-
107
[4]
信息组织与检索[M]. 科学出版社 , 李国辉等编著, 2003
[5]
The Deep Web. Cohen L. http://www.internettutorials.net/deepweb.html . 2008
←
1
→
共 5 条
[1]
ID3算法应用研究
论文数:
引用数:
h-index:
机构:
马瑜
王有刚
论文数:
0
引用数:
0
h-index:
0
机构:
宁夏大学民族预科部
宁夏大学物理电气信息学院
王有刚
[J].
信息技术,
2006,
(12)
: 84
-
86
[2]
近几年国外隐蔽网络研究概述
娄卓男
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学信息管理系
娄卓男
吴志强
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学信息管理系
吴志强
[J].
图书情报工作,
2004,
(01)
: 102
-
104
[3]
ID3算法的一种改进算法
曲开社
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
曲开社
成文丽
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
成文丽
王俊红
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王俊红
[J].
计算机工程与应用,
2003,
(25)
: 104
-
107
[4]
信息组织与检索[M]. 科学出版社 , 李国辉等编著, 2003
[5]
The Deep Web. Cohen L. http://www.internettutorials.net/deepweb.html . 2008
←
1
→