Web信息采集中的哈希函数比较

被引:8
作者
吴丽辉
白硕
张刚
张凯
机构
[1] 中国科学院计算技术研究所软件研究室
关键词
Web信息采集; 哈希函数; URL;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
引用
收藏
页码:673 / 676
页数:4
相关论文
共 1 条
[1]   两种对URL的散列效果很好的函数 [J].
李晓明 ;
凤旺森 .
软件学报, 2004, (02) :179-184