学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
高性能并行爬行器
被引:7
作者
:
论文数:
引用数:
h-index:
机构:
蒋宗礼
赵钦
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学
赵钦
肖华
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学
肖华
王蕊
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学
王蕊
机构
:
[1]
北京工业大学
来源
:
计算机工程与设计
|
2006年
/ 24期
关键词
:
搜索引擎;
信息采集;
爬行器;
并行;
检索;
D O I
:
10.16208/j.issn1000-7024.2006.24.045
中图分类号
:
TP391.3 [检索机];
学科分类号
:
摘要
:
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。
引用
收藏
页码:4762 / 4766
页数:5
相关论文
共 2 条
[1]
两种对URL的散列效果很好的函数
[J].
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
李晓明
;
凤旺森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
凤旺森
.
软件学报,
2004,
(02)
:179
-184
[2]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→
共 2 条
[1]
两种对URL的散列效果很好的函数
[J].
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
李晓明
;
凤旺森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
凤旺森
.
软件学报,
2004,
(02)
:179
-184
[2]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→