基于Heritrix的增量式网络爬虫研究

被引：3

作者：

张皓

周学广

机构：

[1] 海军工程大学信息安全系

来源：

关键词：

Heritrix; Hash; 网络爬虫; 增量抓取;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

摘要：

通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。

引用

页码：135 / 137

页数：3

共 4 条

[1] Focused crawling for automatic service discovery, annotation, and classification in industrial Digital Ecosystems. Dong, Hai,Hussain, Farookh Khadeer. IEEE Transactions on Industrial Electronics . 2011
[2] 搜索引擎增量式搜集的实现与评测
雷凯
王东海
[J]. 计算机工程, 2008, (13) : 78 - 80+106
[3] 增量式Web信息采集与信息提取系统的研究与实现[D]. 李莎莎.武汉理工大学 2011
[4] 密码学原理与实践[M]. 电子工业出版社 , ()DouglasR.Stinson著, 2003