Nutch分布式网络爬虫研究与优化

被引:19
作者
詹恒飞 [1 ]
杨岳湘 [2 ]
方宏 [2 ]
机构
[1] 国防科学技术大学计算机学院
[2] 国防科学技术大学信息中心
基金
湖南省自然科学基金; 广东省科技计划;
关键词
Nutch搜索引擎; 网络爬虫; 弹性抓取机制;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。
引用
收藏
页码:68 / 74
页数:7
相关论文
共 3 条
[1]   基于Hadoop的海量共现矩阵生成方法 [J].
杨代庆 ;
张智雄 .
现代图书情报技术, 2009, (04) :23-26
[2]  
Building Nutch[J] . Mike Cafarella,Doug Cutting.Queue . 2004 (2)
[3]  
Hadoop MapReduce. http://wiki.apache.org/Hadoop/HadoopMapReduce . 2010