LUCENE搜索算法剖析及优化研究

被引:12
作者
任树怀
机构
[1] 上海外国语大学图书馆
关键词
Lucene; 搜索算法; 向量空间模型; TF-IDF; 离散随机最优化;
D O I
10.13663/j.cnki.lj.2014.12.003
中图分类号
TP391.3 [检索机];
学科分类号
摘要
介绍了开源搜索引擎Lucene的索引与搜索过程,剖析了Lucene的基于向量空间模型的文档相关度模型和基于TF-IDF的权重计分算法,在分析其文档相关度分值计算公式的基础上,指出了可通过修正评分机制和优化向量空间模型的算法来改进Lucene的搜索功能和性能的途径。并提出了一种基于离散随机最优化的快速搜索算法,以期提升Lucene在大文档集实时搜索时的性能。
引用
收藏
页码:17 / 23
页数:7
相关论文
共 6 条
[1]   一种融合词语位置特征的Lucene相似度评分算法 [J].
白培发 ;
王成良 ;
徐玲 .
计算机工程与应用, 2014, 50 (02) :129-132+161
[2]   资源发现系统功能分析及应用前景 [J].
窦天芳 ;
姜爱蓉 .
图书情报工作, 2012, 56 (07) :38-43
[3]   一种改进的Lucene语义相似度检索算法 [J].
黄承慧 ;
印鉴 ;
陆寄远 .
中山大学学报(自然科学版), 2011, 50 (02) :11-15
[4]   基于领域本体和Lucene的语义检索系统研究 [J].
王欢 ;
孙瑞志 .
计算机应用, 2010, 30 (06) :1655-1657+1660
[5]  
欧几里得范数[C/OL] .2 http://zh.wikipedia.org/wiki/%E8%8C%83%E6%95%B0 . 2013
[6]  
Lucene-java Wiki[C/OL] .2 http://wiki.apache.org/lucene-java/Powered By . 2012