基于Map/Reduce的分布式智能搜索引擎框架研究

被引:0
作者
付志超
机构
[1] 武汉理工大学
关键词
搜索引擎; 分布式计算; Map/Reduce; HDFS;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。 本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下: 论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。 在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。
引用
收藏
页数:120
共 61 条
[1]
智能搜索引擎理论与应用研究 [D]. 
陈治平 .
湖南大学,
2003
[2]
基于P2P的分布式搜索技术研究与实现 [D]. 
张颖卓 .
成都理工大学,
2008
[3]
基于Nutch技术的主题搜索引擎实现 [D]. 
李东海 .
吉林大学,
2008
[4]
基于分布式的智能搜索引擎 [D]. 
姜鑫维 .
武汉理工大学,
2006
[5]
分布式网络爬虫技术的研究与实现 [D]. 
苏旋 .
哈尔滨工业大学,
2006
[6]
基于分词的中文文本相似度计算研究 [D]. 
沈斌 .
天津财经大学,
2006
[7]
智能中文搜索引擎若干关键技术的研究与实现 [D]. 
潘照明 .
浙江大学,
2006
[8]
基于P2P的分布式中文搜索引擎的应用研究 [D]. 
丁邦旭 .
南昌大学,
2006
[9]
分布式搜索引擎缓存设计及优化 [D]. 
王明功 .
北京邮电大学,
2006
[10]
分布式系统中的文本信息检索技术研究 [D]. 
刘红星 .
清华大学,
2004