基于ID3分类算法的深度网络爬虫设计

被引:4
作者
王舜燕
李蕾
吴兵华
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
网络爬虫; 深度网络; ID3算法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。
引用
收藏
页码:41 / 45
页数:5
相关论文
共 5 条
  • [1] ID3算法应用研究
    马瑜
    王有刚
    [J]. 信息技术, 2006, (12) : 84 - 86
  • [2] 近几年国外隐蔽网络研究概述
    娄卓男
    吴志强
    [J]. 图书情报工作, 2004, (01) : 102 - 104
  • [3] ID3算法的一种改进算法
    曲开社
    成文丽
    王俊红
    [J]. 计算机工程与应用, 2003, (25) : 104 - 107
  • [4] 信息组织与检索[M]. 科学出版社 , 李国辉等编著, 2003
  • [5] The Deep Web. Cohen L. http://www.internettutorials.net/deepweb.html . 2008