基于Map/Reduce的网页消重并行算法

被引:3
作者
张元丰
董守斌
张凌
陈晓志
机构
[1] 华南理工大学广东省计算机网络重点实验室
关键词
搜索引擎; 网页消重; Map/Reduce;
D O I
10.16088/j.issn.1001-6600.2007.02.036
中图分类号
TP393.092 [];
学科分类号
摘要
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。
引用
收藏
页码:153 / 156
页数:4
相关论文
共 2 条
[1]   基于DFS的并行粒计算模型及其应用 [J].
苏频 ;
李凡长 .
广西师范大学学报(自然科学版), 2006, (04) :66-69
[2]  
MPI与OpenMP并行程序设计(C语言版).[M].[美]MichaelJ.Quinn著;陈文光;武永卫等译;.清华大学出版社.2004,