基于Lucene小型搜索引擎的研究与实现

被引:0
作者
冯斌
机构
[1] 武汉理工大学
关键词
搜索引擎; Lucene; 重复页面; 中文分词;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长。人们发现即使是获取局域网的信息也变得困难。目前虽然已经有google、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,通用搜索引擎的覆盖率都不太高,很多局域网的信息都无法完全搜集;另一方面,通用搜索引擎的页面更新比较慢,信息的实时性、准确性都无法保证。因此,为了提高局域网内信息检索的效率,本文设计并实现了适用于局域网信息检索的小型搜索系统。 本文以校园网为平台,在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的个性化需求,构建了一个运行稳定,性能良好且具有可扩展性的小型搜索引擎系统。论文不仅完成了对整个搜索引擎系统框架的设计,而且基本上完成了所有的开发测试工作。 本文论述了系统开发的背景和国内外搜索引擎技术发展现状,分析了小型搜索系统的个性化需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案。论文的主要工作以及创新如下: 1.利用了分布式处理模型Hadoop,搭建了系统分布式框架,提高了系统的整体性能。 2.针对搜索结果的不准确、滞后问题,分析了网络信息更新的特点,利用了Quartz作业调度系统,设计并实现了页面更新模块,提高了信息搜索的准确性和实时性。 3.基于Lucene软件包,设计实现了系统核心的索引和搜索模块,完成了对页面的索引和搜索。在此过程中,设计了页面解析框架,实现了对多种格式的文本解析;研究并改进了最大正向分词算法,提高了对中文信息的分词效率; 4.针对搜索结果中出现大量的重复页面的问题,研究了MD5算法实现对索引中重复页面的消除,部分优化了搜索结果。 最后,通过在校园网上运行,分析了运行的数据,证明系统已成功达到了预期的目标。
引用
收藏
页数:71
共 21 条
[1]
Estimating frequency of change.[J].Junghoo Cho;Hector Garcia-Molina.ACM Transactions on Internet Technology (TOIT).2003, 3
[2]
搜索引擎中网络蜘蛛的设计与实现 [J].
刘刚 ;
于力超 .
电脑与信息技术, 2007, (04) :36-39+45
[3]
谈分布式计算模型MapReduce与搜索引擎系统 [J].
刘封 .
知识经济, 2007, (08) :113-115
[4]
基于VSM的文档信息检索改进 [J].
焦玉英 ;
宋晓晴 .
情报理论与实践, 2007, (01) :97-99+104
[5]
基于搜索引擎的中文分词评估方法 [J].
王华栋 ;
饶培伦 .
情报科学, 2007, (01) :108-112
[6]
基于Nutch的搜索引擎的研究 [J].
胡涛 ;
路红英 .
计算机时代, 2007, (01) :57-59
[7]
一种基于Lucene的Web全文信息检索系统的设计与实现 [J].
张晓卫 ;
朱巧明 .
计算机与现代化, 2006, (12) :111-115
[8]
基于Lucene的中文字典分词模块的设计与实现 [J].
向晖 ;
郭一平 ;
王亮 .
现代图书情报技术, 2006, (08) :46-50
[9]
网络蜘蛛搜索研究 [J].
华伟臣 ;
张秀琼 .
乐山师范学院学报, 2006, (05) :85-87
[10]
搜索引擎技术及其发展前瞻 [J].
徐莹 .
科技情报开发与经济, 2005, (24) :177-178