分布式网络爬虫URL去重策略的改进

被引:3
作者
吴小惠
机构
[1] 福建交通职业技术学院
关键词
网络爬虫; 分布式; URL去重; 广义表;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中.重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去重方式为基础,扩展改进传统的广义表数据结构,提出了一种新的基于内存改进广义表的URL去重算法.这种算法与传统的去重算法相比较,在空间效率可行范围之内,有效地缩短了单次去重的时间,使总控服务器上的去重不再成为整个系统的瓶颈.
引用
收藏
页码:116 / 119
页数:4
相关论文
共 6 条
[1]   Bloom Filter和Weighted Bloom Filter的比较与研究 [J].
池静 ;
倪健 ;
王华 ;
邢秀娥 .
河北师范大学学报, 2006, (04) :398-402
[2]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[3]   拆分型Bloom Filter [J].
肖明忠 ;
代亚非 ;
李晓明 .
电子学报, 2004, (02) :241-245
[4]  
分布式系统技术内幕[M]. 首都经济贸易大学出版社 , 张军著, 2006
[5]  
数据结构[M]. 清华大学出版社 , 严蔚敏, 2002
[6]  
Url排重BloomFilter算法、误差及其他 .2 田春峰. http//blog.csdn.net/ac-cesine960/archive/2007/01/23/1491483.aspx . 2007