基于Heritrix的增量式网络爬虫研究

被引:3
作者
张皓
周学广
机构
[1] 海军工程大学信息安全系
关键词
Heritrix; Hash; 网络爬虫; 增量抓取;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
引用
收藏
页码:135 / 137
页数:3
相关论文
共 4 条
  • [1] Focused crawling for automatic service discovery, annotation, and classification in industrial Digital Ecosystems. Dong, Hai,Hussain, Farookh Khadeer. IEEE Transactions on Industrial Electronics . 2011
  • [2] 搜索引擎增量式搜集的实现与评测
    雷凯
    王东海
    [J]. 计算机工程, 2008, (13) : 78 - 80+106
  • [3] 增量式Web信息采集与信息提取系统的研究与实现[D]. 李莎莎.武汉理工大学 2011
  • [4] 密码学原理与实践[M]. 电子工业出版社 , ()DouglasR.Stinson著, 2003