高性能并行爬行器

被引：7

作者：

蒋宗礼

赵钦

肖华

王蕊

机构：

[1] 北京工业大学

来源：

计算机工程与设计 | 2006年 / 24期

关键词：

搜索引擎; 信息采集; 爬行器; 并行; 检索;

D O I：

10.16208/j.issn1000-7024.2006.24.045

中图分类号：

TP391.3 [检索机];

学科分类号：

摘要：

爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。

引用

页码：4762 / 4766

页数：5