基于Lucene的数字作品搜索引擎的研究与设计

被引:9
作者
吴洁明
韩云辉
冀单单
机构
[1] 北方工业大学信息工程学院
关键词
Lucene; 分词算法; 索引; 相关度排序算法; 分布式;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的搜索引擎,为用户提供对海量数字作品信息的快速、准确的搜索服务。实验分析比较了分词速度和分词效果,还比较了关键词搜索结果的响应时间、命中数量、准确率和召回率。实验结果表明,本系统在很大程度上提高了搜索速度,保证了搜索结果的准确性。
引用
收藏
页码:166 / 172
页数:7
相关论文
共 6 条
[1]   基于Lucene的搜索引擎设计与实现 [J].
赵珂 ;
逯鹏 ;
李永强 .
计算机工程, 2011, 37 (16) :39-41
[2]   Web信息检索的技术分析与发展策略研究 [J].
李振龙 .
计算机科学, 2006, (04) :181-184
[3]  
Managing gigabytes: compressing and indexing documents and images..I.H.Witten; A.Moffat; T.C.Bell;.Van Nostrand Reinhold.1994,
[4]  
高可用性的HDFS.[M].文艾; 王磊; 编著.清华大学出版社.2012,
[5]  
实战Hadoop.[M].刘鹏; 主编.电子工业出版社.2011,
[6]  
开发自己的搜索引擎.[M].邱哲; 符滔滔; 编著.人民邮电出版社.2007,