基于MapReduce的并行PageRank算法实现

被引:13
作者
平宇 [1 ]
向阳 [1 ]
张波 [2 ]
黄寅飞 [3 ]
机构
[1] 同济大学计算机科学与技术系
[2] 上海师范大学信息与机电工程学院
[3] 上海证券交易所
关键词
搜索引擎; PageRank算法; MapReduce框架; 并行计算; Hadoop平台;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
引用
收藏
页码:31 / 34+38 +38
页数:5
相关论文
共 5 条
[1]  
搜索引擎[M]. 科学出版社 , 李晓明, 2005
[2]   Applying reinforcement learning for web pages ranking algorithms [J].
Derhami, Vali ;
Khodadadian, Elahe ;
Ghasemzadeh, Mohammad ;
Bidoki, Ali Mohammad Zareh .
APPLIED SOFT COMPUTING, 2013, 13 (04) :1686-1692
[3]   Performance study of distributed Apriori-like frequent itemsets mining [J].
Aouad, Lamine M. ;
Le-Khac, Nhien-An ;
Kechadi, Tahar M. .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 23 (01) :55-72
[4]   An ontology-based approach to learnable focused crawling [J].
Zheng, Hai-Tao ;
Kang, Bo-Yeong ;
Kim, Hong-Gee .
INFORMATION SCIENCES, 2008, 178 (23) :4512-4522
[5]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632