学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于Lucene的搜索引擎技术的研究与改进
被引:0
作者
:
吴海明
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学
暨南大学
吴海明
机构
:
[1]
暨南大学
关键词
:
搜索引擎;
全文检索;
排序算法;
Lucene;
Robot;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
王会进;
摘要
:
搜索引擎已经成为人们获取网络信息的主要工具,全文检索技术是学者研究的热点。Lucene是一个用Java写的全文索引/检索工具包,它可以方便地嵌入到各种应用中,实现针对具体应用的全文搜索引擎功能,近年在世界各地被广泛使用。 Robot是web搜索引擎的数据来源,它的性能直接影响了资源采集的数量与质量,因此Robot是搜索引擎的一个很重要的部分。Lucene本身没有提供Robot,本论文在介绍搜索引擎有关技术和Lucene工具包的基础上,研究和实现了一个可由用户设定线程数目的多线程的Robot。该Robot可以作为Lucene的扩展。 本论文还针对Lucene在检索结果排序算法方面的不足进行了改进。由于检索结果的排序对搜索引擎来说也十分重要,用户往往只对最前面的几条结果感兴趣,如何在众多的结果中将重要的结果排在前面,是搜索引擎研究的重点之一。改进后的排序方案除了原Lucene考虑到的词频因素还考虑了:网页文档的链接情况、网页的响应时间、正文大小以及用户查询关键词在文档特殊位置的情况等。试验表明改进后的排序算法较原排序算法有较明显的改善。 在上述工作的基础上,论文最后实现了一个完整的搜索引擎,并对Robot的性能和对Lutene改进后的检索结果排序算法进行了测试和评价。
引用
收藏
页数:71
共 25 条
[1]
排序融合算法在校园网搜索引擎中的应用
[J].
论文数:
引用数:
h-index:
机构:
李粤
;
论文数:
引用数:
h-index:
机构:
安捷
;
论文数:
引用数:
h-index:
机构:
李星
.
大连理工大学学报,
2005,
(S1)
:257
-260
[2]
抢先式多线程Spider在智能搜索引擎中的实现
[J].
论文数:
引用数:
h-index:
机构:
董瑞洪
;
论文数:
引用数:
h-index:
机构:
张秋余
;
唐静兵
论文数:
0
引用数:
0
h-index:
0
机构:
兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院兰州,兰州,兰州,兰州
唐静兵
;
张涛
论文数:
0
引用数:
0
h-index:
0
机构:
兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院兰州,兰州,兰州,兰州
张涛
.
计算机工程,
2005,
(18)
:90
-92
[3]
基于文本分类的网页排序算法
[J].
李信利
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
李信利
;
论文数:
引用数:
h-index:
机构:
马军
;
论文数:
引用数:
h-index:
机构:
吕月娥
;
张德伟
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
张德伟
.
微计算机信息,
2005,
(23)
[4]
搜索引擎技术研究与发展
[J].
印鉴
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
印鉴
;
陈忆群
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
陈忆群
;
张钢
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
张钢
.
计算机工程,
2005,
(14)
:54
-56+104
[5]
基于PageRank算法的搜索引擎优化策略
[J].
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
李志蜀
.
计算机应用,
2005,
(07)
:1711
-1712+1718
[6]
搜索引擎的四大发展趋势
[J].
论文数:
引用数:
h-index:
机构:
王琼
.
农业网络信息,
2005,
(03)
:29
-30
[7]
搜索引擎的排序技术研究
[J].
杨思洛
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学管理学院湖南
杨思洛
.
现代图书情报技术,
2005,
(01)
:43
-47
[8]
基于Lucene的搜索引擎设计与实现
[J].
论文数:
引用数:
h-index:
机构:
高琰
;
论文数:
引用数:
h-index:
机构:
谷士文
;
谭立球
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院湖南长沙,湖南长沙,湖南长沙,湖南长沙
谭立球
;
费耀平
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院湖南长沙,湖南长沙,湖南长沙,湖南长沙
费耀平
.
微机发展,
2004,
(10)
:27
-30
[9]
搜索引擎的Web Robot技术与优化
[J].
崔泽永
论文数:
0
引用数:
0
h-index:
0
机构:
北方工业大学经管学院仿真中心,西南交通大学计算机与通信工程学院北京,四川成都
崔泽永
;
常晓燕
论文数:
0
引用数:
0
h-index:
0
机构:
北方工业大学经管学院仿真中心,西南交通大学计算机与通信工程学院北京,四川成都
常晓燕
.
微机发展,
2004,
(04)
:99
-101+112
[10]
搜索引擎原理剖析及其技术发展
[J].
论文数:
引用数:
h-index:
机构:
余艳
.
图书馆学刊,
2004,
(01)
:58
-60
←
1
2
3
→
共 25 条
[1]
排序融合算法在校园网搜索引擎中的应用
[J].
论文数:
引用数:
h-index:
机构:
李粤
;
论文数:
引用数:
h-index:
机构:
安捷
;
论文数:
引用数:
h-index:
机构:
李星
.
大连理工大学学报,
2005,
(S1)
:257
-260
[2]
抢先式多线程Spider在智能搜索引擎中的实现
[J].
论文数:
引用数:
h-index:
机构:
董瑞洪
;
论文数:
引用数:
h-index:
机构:
张秋余
;
唐静兵
论文数:
0
引用数:
0
h-index:
0
机构:
兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院兰州,兰州,兰州,兰州
唐静兵
;
张涛
论文数:
0
引用数:
0
h-index:
0
机构:
兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院,兰州理工大学电气工程与信息工程学院兰州,兰州,兰州,兰州
张涛
.
计算机工程,
2005,
(18)
:90
-92
[3]
基于文本分类的网页排序算法
[J].
李信利
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
李信利
;
论文数:
引用数:
h-index:
机构:
马军
;
论文数:
引用数:
h-index:
机构:
吕月娥
;
张德伟
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
张德伟
.
微计算机信息,
2005,
(23)
[4]
搜索引擎技术研究与发展
[J].
印鉴
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
印鉴
;
陈忆群
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
陈忆群
;
张钢
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系,中山大学计算机科学系,中山大学计算机科学系广州,南京大学计算机软件新技术国家重点实验室,南京,广州,广州
张钢
.
计算机工程,
2005,
(14)
:54
-56+104
[5]
基于PageRank算法的搜索引擎优化策略
[J].
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
李志蜀
.
计算机应用,
2005,
(07)
:1711
-1712+1718
[6]
搜索引擎的四大发展趋势
[J].
论文数:
引用数:
h-index:
机构:
王琼
.
农业网络信息,
2005,
(03)
:29
-30
[7]
搜索引擎的排序技术研究
[J].
杨思洛
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学管理学院湖南
杨思洛
.
现代图书情报技术,
2005,
(01)
:43
-47
[8]
基于Lucene的搜索引擎设计与实现
[J].
论文数:
引用数:
h-index:
机构:
高琰
;
论文数:
引用数:
h-index:
机构:
谷士文
;
谭立球
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院湖南长沙,湖南长沙,湖南长沙,湖南长沙
谭立球
;
费耀平
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院,中南大学信息科学与工程学院湖南长沙,湖南长沙,湖南长沙,湖南长沙
费耀平
.
微机发展,
2004,
(10)
:27
-30
[9]
搜索引擎的Web Robot技术与优化
[J].
崔泽永
论文数:
0
引用数:
0
h-index:
0
机构:
北方工业大学经管学院仿真中心,西南交通大学计算机与通信工程学院北京,四川成都
崔泽永
;
常晓燕
论文数:
0
引用数:
0
h-index:
0
机构:
北方工业大学经管学院仿真中心,西南交通大学计算机与通信工程学院北京,四川成都
常晓燕
.
微机发展,
2004,
(04)
:99
-101+112
[10]
搜索引擎原理剖析及其技术发展
[J].
论文数:
引用数:
h-index:
机构:
余艳
.
图书馆学刊,
2004,
(01)
:58
-60
←
1
2
3
→