基于优先级队列的分布式多主题爬虫

被引:13
作者
范珊珊
李石君
机构
[1] 武汉大学计算机学院
关键词
哈希算法; 优先级队列; 均衡; 多主题; 任务调度;
D O I
10.16208/j.issn1000-7024.2015.06.042
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ-MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。
引用
收藏
页码:1630 / 1636
页数:7
相关论文
共 9 条
[1]
Web-scale extraction of structured data.[J].Michael J. Cafarella;Jayant Madhavan;Alon Halevy.ACM SIGMOD Record.2009, 4
[2]
一种基于优先级队列的集群动态反馈调度算法 [J].
柳少锋 ;
董剑 ;
吴智博 .
智能计算机与应用, 2012, 2 (04) :78-80+85
[3]
一种改进的T-Spider分布式爬虫 [J].
金凡 ;
顾进广 .
微电子学与计算机, 2011, 28 (08) :102-104
[4]
基于GNP算法的分布式爬虫调度策略 [J].
刘爽 ;
姜春祥 ;
张伟哲 ;
李东 ;
张鸿 .
计算机应用研究, 2010, 27 (02) :446-449
[5]
Web集群系统的负载均衡算法 [J].
王春娟 ;
董丽丽 ;
贾丽 .
计算机工程, 2010, 36 (02) :102-104
[6]
分布式多主题网络爬虫系统的研究与实现 [J].
白鹤 ;
汤迪斌 ;
王劲林 .
计算机工程, 2009, 35 (19) :13-16+19
[7]
基于动态多处理节点的分布式系统任务调度 [J].
梁根 ;
秦勇 ;
郭小雪 ;
梁活民 .
计算机工程, 2009, 35 (09) :31-33+36
[8]
基于流水线负载平衡模型的并行爬虫研究 [J].
孟祥乾 ;
叶允明 ;
邓斌 .
计算机工程, 2009, 35 (02) :34-36
[9]
基于多核分布式环境下的任务调度关键技术研究 [D]. 
耿晓中 .
吉林大学,
2013