基于Heritrix的网络爬虫研究与应用

被引:3
作者
刘高军
夏景隆
机构
[1] 北方工业大学
关键词
网络爬虫; 主题搜索引擎; Heritrix; URL地址去重; BKDRHash算法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。
引用
收藏
页码:123 / 125
页数:3
相关论文
共 8 条