学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于优先级队列的分布式多主题爬虫
被引:13
作者
:
论文数:
引用数:
h-index:
机构:
范珊珊
论文数:
引用数:
h-index:
机构:
李石君
机构
:
[1]
武汉大学计算机学院
来源
:
计算机工程与设计
|
2015年
/ 36卷
/ 06期
关键词
:
哈希算法;
优先级队列;
均衡;
多主题;
任务调度;
D O I
:
10.16208/j.issn1000-7024.2015.06.042
中图分类号
:
TP393.092 [];
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ-MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。
引用
收藏
页码:1630 / 1636
页数:7
相关论文
共 9 条
[1]
Web-scale extraction of structured data.[J].Michael J. Cafarella;Jayant Madhavan;Alon Halevy.ACM SIGMOD Record.2009, 4
[2]
一种基于优先级队列的集群动态反馈调度算法
[J].
论文数:
引用数:
h-index:
机构:
柳少锋
;
论文数:
引用数:
h-index:
机构:
董剑
;
论文数:
引用数:
h-index:
机构:
吴智博
.
智能计算机与应用,
2012,
2
(04)
:78
-80+85
[3]
一种改进的T-Spider分布式爬虫
[J].
论文数:
引用数:
h-index:
机构:
金凡
;
论文数:
引用数:
h-index:
机构:
顾进广
.
微电子学与计算机,
2011,
28
(08)
:102
-104
[4]
基于GNP算法的分布式爬虫调度策略
[J].
论文数:
引用数:
h-index:
机构:
刘爽
;
姜春祥
论文数:
0
引用数:
0
h-index:
0
机构:
国家计算机网络应急技术处理协调中心黑龙江分中心
哈尔滨工业大学计算机科学与技术学院
姜春祥
;
论文数:
引用数:
h-index:
机构:
张伟哲
;
论文数:
引用数:
h-index:
机构:
李东
;
张鸿
论文数:
0
引用数:
0
h-index:
0
机构:
国家计算机网络应急技术处理协调中心
哈尔滨工业大学计算机科学与技术学院
张鸿
.
计算机应用研究,
2010,
27
(02)
:446
-449
[5]
Web集群系统的负载均衡算法
[J].
论文数:
引用数:
h-index:
机构:
王春娟
;
论文数:
引用数:
h-index:
机构:
董丽丽
;
论文数:
引用数:
h-index:
机构:
贾丽
.
计算机工程,
2010,
36
(02)
:102
-104
[6]
分布式多主题网络爬虫系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
白鹤
;
论文数:
引用数:
h-index:
机构:
汤迪斌
;
论文数:
引用数:
h-index:
机构:
王劲林
.
计算机工程,
2009,
35
(19)
:13
-16+19
[7]
基于动态多处理节点的分布式系统任务调度
[J].
梁根
论文数:
0
引用数:
0
h-index:
0
机构:
茂名学院教育信息技术中心
茂名学院教育信息技术中心
梁根
;
论文数:
引用数:
h-index:
机构:
秦勇
;
郭小雪
论文数:
0
引用数:
0
h-index:
0
机构:
茂名学院理学院
茂名学院教育信息技术中心
郭小雪
;
论文数:
引用数:
h-index:
机构:
梁活民
.
计算机工程,
2009,
35
(09)
:31
-33+36
[8]
基于流水线负载平衡模型的并行爬虫研究
[J].
论文数:
引用数:
h-index:
机构:
孟祥乾
;
论文数:
引用数:
h-index:
机构:
叶允明
;
论文数:
引用数:
h-index:
机构:
邓斌
.
计算机工程,
2009,
35
(02)
:34
-36
[9]
基于多核分布式环境下的任务调度关键技术研究
[D].
论文数:
引用数:
h-index:
机构:
耿晓中
.
吉林大学,
2013
←
1
→
共 9 条
[1]
Web-scale extraction of structured data.[J].Michael J. Cafarella;Jayant Madhavan;Alon Halevy.ACM SIGMOD Record.2009, 4
[2]
一种基于优先级队列的集群动态反馈调度算法
[J].
论文数:
引用数:
h-index:
机构:
柳少锋
;
论文数:
引用数:
h-index:
机构:
董剑
;
论文数:
引用数:
h-index:
机构:
吴智博
.
智能计算机与应用,
2012,
2
(04)
:78
-80+85
[3]
一种改进的T-Spider分布式爬虫
[J].
论文数:
引用数:
h-index:
机构:
金凡
;
论文数:
引用数:
h-index:
机构:
顾进广
.
微电子学与计算机,
2011,
28
(08)
:102
-104
[4]
基于GNP算法的分布式爬虫调度策略
[J].
论文数:
引用数:
h-index:
机构:
刘爽
;
姜春祥
论文数:
0
引用数:
0
h-index:
0
机构:
国家计算机网络应急技术处理协调中心黑龙江分中心
哈尔滨工业大学计算机科学与技术学院
姜春祥
;
论文数:
引用数:
h-index:
机构:
张伟哲
;
论文数:
引用数:
h-index:
机构:
李东
;
张鸿
论文数:
0
引用数:
0
h-index:
0
机构:
国家计算机网络应急技术处理协调中心
哈尔滨工业大学计算机科学与技术学院
张鸿
.
计算机应用研究,
2010,
27
(02)
:446
-449
[5]
Web集群系统的负载均衡算法
[J].
论文数:
引用数:
h-index:
机构:
王春娟
;
论文数:
引用数:
h-index:
机构:
董丽丽
;
论文数:
引用数:
h-index:
机构:
贾丽
.
计算机工程,
2010,
36
(02)
:102
-104
[6]
分布式多主题网络爬虫系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
白鹤
;
论文数:
引用数:
h-index:
机构:
汤迪斌
;
论文数:
引用数:
h-index:
机构:
王劲林
.
计算机工程,
2009,
35
(19)
:13
-16+19
[7]
基于动态多处理节点的分布式系统任务调度
[J].
梁根
论文数:
0
引用数:
0
h-index:
0
机构:
茂名学院教育信息技术中心
茂名学院教育信息技术中心
梁根
;
论文数:
引用数:
h-index:
机构:
秦勇
;
郭小雪
论文数:
0
引用数:
0
h-index:
0
机构:
茂名学院理学院
茂名学院教育信息技术中心
郭小雪
;
论文数:
引用数:
h-index:
机构:
梁活民
.
计算机工程,
2009,
35
(09)
:31
-33+36
[8]
基于流水线负载平衡模型的并行爬虫研究
[J].
论文数:
引用数:
h-index:
机构:
孟祥乾
;
论文数:
引用数:
h-index:
机构:
叶允明
;
论文数:
引用数:
h-index:
机构:
邓斌
.
计算机工程,
2009,
35
(02)
:34
-36
[9]
基于多核分布式环境下的任务调度关键技术研究
[D].
论文数:
引用数:
h-index:
机构:
耿晓中
.
吉林大学,
2013
←
1
→