分布式Web Crawler的研究:结构、算法和策略

被引:22
作者
叶允明
于水
马范援
宋晖
张岭
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海
[3] 上海
关键词
Web爬虫; 爬行策略; 分布式系统;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
引用
收藏
页码:2008 / 2011
页数:4
相关论文
共 2 条
[1]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
[2]   TRIE MEMORY [J].
FREDKIN, E .
COMMUNICATIONS OF THE ACM, 1960, 3 (09) :490-499