基于流水线负载平衡模型的并行爬虫研究

被引:6
作者
孟祥乾
叶允明
邓斌
机构
[1] 哈尔滨工业大学深圳研究生院
关键词
爬虫; 并行; 流水线; 负载平衡;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
针对并行爬虫系统在多任务并发执行时所遇到的模块间负载平衡问题,提出流水线负载平衡模型(PLB),将不同的任务抽象为独立模块而达到各模块的处理速度相等,采用多线程的方式实现基于PLB的并行爬虫,根据线程的休眠和缓冲区的变化对线程数量进行动态调整以实现PLB。实验结果表明该方法具有良好的运行效率和稳定性。
引用
收藏
页码:34 / 36
页数:3
相关论文
共 2 条
[1]
一种高性能分布式Web Crawler的设计与实现 [J].
张岭 ;
叶允明 ;
宋晖 ;
于水 ;
马范援 ;
不详 .
上海交通大学学报 , 2004, (01) :59-61
[2]
分布式Web Crawler的研究:结构、算法和策略 [J].
叶允明 ;
于水 ;
马范援 ;
宋晖 ;
张岭 .
电子学报, 2002, (S1) :2008-2011