搜索引擎增量式搜集的实现与评测

被引:3
作者
雷凯
王东海
机构
[1] 北京大学深圳研究生院互联网研发中心
关键词
增量式搜集; 网页变化预测; 搜索引擎;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。
引用
收藏
页码:78 / 80+106 +106
页数:4
相关论文
共 3 条
[1]  
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
[2]  
Estimating frequency of change.[J].Junghoo Cho;Hector Garcia-Molina.ACM Transactions on Internet Technology (TOIT).2003, 3
[3]   Search engines and Web dynamics [J].
Risvik, KM ;
Michelsen, R .
COMPUTER NETWORKS-THE INTERNATIONAL JOURNAL OF COMPUTER AND TELECOMMUNICATIONS NETWORKING, 2002, 39 (03) :289-302