共 1 条
Web信息采集中的哈希函数比较
被引:8
作者:
吴丽辉
白硕
张刚
张凯
机构:
[1] 中国科学院计算技术研究所软件研究室
来源:
关键词:
Web信息采集;
哈希函数;
URL;
D O I:
暂无
中图分类号:
TP393.092 [];
学科分类号:
摘要:
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
引用
收藏
页码:673 / 676
页数:4
相关论文