学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
分布式Web Crawler的研究:结构、算法和策略
被引:22
作者
:
叶允明
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
叶允明
于水
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
于水
马范援
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
马范援
宋晖
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
宋晖
张岭
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
张岭
机构
:
[1]
上海交通大学计算机科学与工程系
[2]
上海交通大学计算机科学与工程系 上海
[3]
上海
来源
:
电子学报
|
2002年
/ S1期
关键词
:
Web爬虫;
爬行策略;
分布式系统;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
080402 ;
摘要
:
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
引用
收藏
页码:2008 / 2011
页数:4
相关论文
共 2 条
[1]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
[2]
TRIE MEMORY
[J].
FREDKIN, E
论文数:
0
引用数:
0
h-index:
0
FREDKIN, E
.
COMMUNICATIONS OF THE ACM,
1960,
3
(09)
:490
-499
←
1
→
共 2 条
[1]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
[2]
TRIE MEMORY
[J].
FREDKIN, E
论文数:
0
引用数:
0
h-index:
0
FREDKIN, E
.
COMMUNICATIONS OF THE ACM,
1960,
3
(09)
:490
-499
←
1
→