基于Lucene的搜索引擎技术的研究与改进

被引:0
作者
吴海明
机构
[1] 暨南大学
关键词
搜索引擎; 全文检索; 排序算法; Lucene; Robot;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
搜索引擎已经成为人们获取网络信息的主要工具,全文检索技术是学者研究的热点。Lucene是一个用Java写的全文索引/检索工具包,它可以方便地嵌入到各种应用中,实现针对具体应用的全文搜索引擎功能,近年在世界各地被广泛使用。 Robot是web搜索引擎的数据来源,它的性能直接影响了资源采集的数量与质量,因此Robot是搜索引擎的一个很重要的部分。Lucene本身没有提供Robot,本论文在介绍搜索引擎有关技术和Lucene工具包的基础上,研究和实现了一个可由用户设定线程数目的多线程的Robot。该Robot可以作为Lucene的扩展。 本论文还针对Lucene在检索结果排序算法方面的不足进行了改进。由于检索结果的排序对搜索引擎来说也十分重要,用户往往只对最前面的几条结果感兴趣,如何在众多的结果中将重要的结果排在前面,是搜索引擎研究的重点之一。改进后的排序方案除了原Lucene考虑到的词频因素还考虑了:网页文档的链接情况、网页的响应时间、正文大小以及用户查询关键词在文档特殊位置的情况等。试验表明改进后的排序算法较原排序算法有较明显的改善。 在上述工作的基础上,论文最后实现了一个完整的搜索引擎,并对Robot的性能和对Lutene改进后的检索结果排序算法进行了测试和评价。
引用
收藏
页数:71
共 25 条
[1]
排序融合算法在校园网搜索引擎中的应用 [J].
李粤 ;
安捷 ;
李星 .
大连理工大学学报, 2005, (S1) :257-260
[2]
抢先式多线程Spider在智能搜索引擎中的实现 [J].
董瑞洪 ;
张秋余 ;
唐静兵 ;
张涛 .
计算机工程, 2005, (18) :90-92
[3]
基于文本分类的网页排序算法 [J].
李信利 ;
马军 ;
吕月娥 ;
张德伟 .
微计算机信息, 2005, (23)
[4]
搜索引擎技术研究与发展 [J].
印鉴 ;
陈忆群 ;
张钢 .
计算机工程, 2005, (14) :54-56+104
[5]
基于PageRank算法的搜索引擎优化策略 [J].
张巍 ;
李志蜀 .
计算机应用, 2005, (07) :1711-1712+1718
[6]
搜索引擎的四大发展趋势 [J].
王琼 .
农业网络信息, 2005, (03) :29-30
[7]
搜索引擎的排序技术研究 [J].
杨思洛 .
现代图书情报技术, 2005, (01) :43-47
[8]
基于Lucene的搜索引擎设计与实现 [J].
高琰 ;
谷士文 ;
谭立球 ;
费耀平 .
微机发展, 2004, (10) :27-30
[9]
搜索引擎的Web Robot技术与优化 [J].
崔泽永 ;
常晓燕 .
微机发展, 2004, (04) :99-101+112
[10]
搜索引擎原理剖析及其技术发展 [J].
余艳 .
图书馆学刊, 2004, (01) :58-60