一种高性能分布式Web Crawler的设计与实现

被引:28
作者
张岭
叶允明
宋晖
于水
马范援
不详
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海
[3] 上海
关键词
Web信息搜集器; 分布式系统; 搜索引擎;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.
引用
收藏
页码:59 / 61
页数:3
相关论文
共 1 条
[1]
Mercator: A scalable; extensible Web crawler[J] Allan Heydon;Marc Najork World Wide Web 1999,