高性能并行爬行器

被引:7
作者
蒋宗礼
赵钦
肖华
王蕊
机构
[1] 北京工业大学
关键词
搜索引擎; 信息采集; 爬行器; 并行; 检索;
D O I
10.16208/j.issn1000-7024.2006.24.045
中图分类号
TP391.3 [检索机];
学科分类号
摘要
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。
引用
收藏
页码:4762 / 4766
页数:5
相关论文
共 2 条
[1]   两种对URL的散列效果很好的函数 [J].
李晓明 ;
凤旺森 .
软件学报, 2004, (02) :179-184
[2]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)