共 4 条
基于Rabin指纹方法的URL去重算法
被引:10
作者:
梁正友
[1
]
张林才
[1
,2
]
机构:
[1] 广西大学计算机与电子信息学院
[2] 辽宁石油化工大学计算机与通信工程学院
来源:
关键词:
URL去重;
Rabin指纹方法;
Web spider;
D O I:
暂无
中图分类号:
TP301.6 [算法理论];
学科分类号:
摘要:
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。
引用
收藏
页码:185 / 186+203
+203
页数:3
相关论文