Nutch中PageRank的并行实现

被引:4
作者
梁正友
潘涛
机构
[1] 广西大学计算机与电子信息学院
关键词
Nutch搜索引擎; PageRank算法; MapReduce模型; 机群; 并行计算;
D O I
10.16208/j.issn1000-7024.2010.20.016
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。
引用
收藏
页码:4354 / 4356+4409 +4409
页数:4
相关论文
共 2 条
[1]   基于PageRank的页面排序改进算法 [J].
王冬 ;
雷景生 ;
李壮 .
计算机工程与设计, 2008, (22) :5921-5923+5927
[2]   PageRank算法研究 [J].
黄德才 ;
戚华春 .
计算机工程, 2006, (04) :145-146+162