基于GNP算法的分布式爬虫调度策略

被引:16
作者
刘爽 [1 ]
姜春祥 [2 ]
张伟哲 [1 ]
李东 [1 ]
张鸿 [3 ]
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 国家计算机网络应急技术处理协调中心黑龙江分中心
[3] 国家计算机网络应急技术处理协调中心
基金
高等学校博士学科点专项科研基金;
关键词
分布式爬虫; 任务调度; 负载均衡; 网络测量; 全局网络定位;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬虫节点,构建分布式搜索引擎,应用该调度策略进行实验,验证了系统性能有较大提高。
引用
收藏
页码:446 / 449
页数:4
相关论文
共 1 条
[1]
GNP算法与基于GNP的全局负载均衡技术.[A].柯怡;林宇;金跃辉;程时端;.第九届全国青年通信学术会议.2004,