基于Rabin指纹方法的URL去重算法

被引:10
作者
梁正友 [1 ]
张林才 [1 ,2 ]
机构
[1] 广西大学计算机与电子信息学院
[2] 辽宁石油化工大学计算机与通信工程学院
关键词
URL去重; Rabin指纹方法; Web spider;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。
引用
收藏
页码:185 / 186+203 +203
页数:3
相关论文
共 4 条
[1]   高性能并行爬行器 [J].
蒋宗礼 ;
赵钦 ;
肖华 ;
王蕊 .
计算机工程与设计, 2006, (24) :4762-4766
[2]   一种增量式并行Web信息采集方法 [J].
杨天奇 ;
周晔 .
计算机工程, 2006, (20) :97-99
[3]   两种对URL的散列效果很好的函数 [J].
李晓明 ;
凤旺森 .
软件学报, 2004, (02) :179-184
[4]   分布式Web Crawler的研究:结构、算法和策略 [J].
叶允明 ;
于水 ;
马范援 ;
宋晖 ;
张岭 .
电子学报, 2002, (S1) :2008-2011