网页变化与增量搜集技术

被引:22
作者
孟涛
王继民
闫宏飞
机构
[1] 北京大学计算机科学技术系网络与分布式系统实验室
[2] 北京大学计算机科学技术系网络与分布式系统实验室 北京
关键词
网页变化; 增量搜集; 调度策略; 研究进展;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.
引用
收藏
页码:1051 / 1067
页数:17
相关论文
共 3 条
[1]  
Optimizing the Number of Robots for Web Search Engines[J] . J. Talim,Z. Liu,P. Nain,E.G. Coffman.Telecommunication Systems . 2001 (1)
[2]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
[3]   OPTIMIZATION OF FIXED TIME POLLING SCHEMES [J].
BORST, SC ;
BOXMA, OJ ;
HARINK, JHA ;
HUITEMA, GB .
TELECOMMUNICATION SYSTEMS, 1994, 3 (01) :31-59