广域网分布式Web爬虫

被引:26
作者
许笑
张伟哲
张宏莉
方滨兴
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
中国博士后科学基金; 高等学校博士学科点专项科研基金;
关键词
搜索引擎; 广域网分布式爬虫; Web划分; Agent协同; Agent部署;
D O I
暂无
中图分类号
TP393.2 [广域网(WAN)];
学科分类号
081201 ; 1201 ;
摘要
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.
引用
收藏
页码:1067 / 1082
页数:16
相关论文
共 7 条
[1]   分布式Web Crawler的研究:结构、算法和策略 [J].
叶允明 ;
于水 ;
马范援 ;
宋晖 ;
张岭 .
电子学报, 2002, (S1) :2008-2011
[2]   一个Internet路由器级拓扑自动发现系统 [J].
姜誉 ;
胡铭曾 ;
方滨兴 ;
张宏莉 .
通信学报, 2002, (12) :54-62
[3]  
搜索引擎[M]. - 科学出版社 , 李晓明, 2005
[4]  
网格计算[M]. - 电子工业出版社 , (美)IanFoster, 2004
[5]  
Architecture of a grid-enabled Web search engine[J] . B. Barla Cambazoglu,Evren Karaca,Tayfun Kucukyilmaz,Ata Turk,Cevdet Aykanat.Information Processing and Management . 2006 (3)
[6]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
[7]  
The anatomy of a large-scale hypertextual Web search engine[J] . Sergey Brin,Lawrence Page.Computer Networks and ISDN Systems . 1998 (1)