一种融合词语位置特征的Lucene相似度评分算法

被引:8
作者
白培发 [1 ]
王成良 [1 ,2 ]
徐玲 [2 ]
机构
[1] 重庆大学计算机学院
[2] 重庆大学软件学院
关键词
Lucene; 相似度; 全文检索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
相似度评分算法是Lucene引擎中的核心部分之一。对Lucene内部的相似度评分算法进行研究分析后,针对Lucene只关心查询词出现的频率,而不关心它们所在的位置这一缺陷提出了一种改进的算法。改进的算法将词语位置关系特征融合到Lucene原始相似度评分算法中。在TREC数据集上的实验结果表明:改进后的算法与Lucene原始算法相比,在MAP和P@n指标上都有一定程度的提高。
引用
收藏
页码:129 / 132+161 +161
页数:5
相关论文
共 7 条
[1]   一种改进的Lucene语义相似度检索算法 [J].
黄承慧 ;
印鉴 ;
陆寄远 .
中山大学学报(自然科学版), 2011, 50 (02) :11-15
[2]   基于领域本体和Lucene的语义检索系统研究 [J].
王欢 ;
孙瑞志 .
计算机应用, 2010, 30 (06) :1655-1657+1660
[3]   基于向量距离的词序相似度算法 [J].
董刊生 ;
方金云 .
中文信息学报, 2009, (03) :45-50
[4]   面向搜索引擎Lucene的中文分析器 [J].
胡长春 ;
刘功申 .
计算机工程与应用, 2009, 45 (12) :157-159
[5]   基于N元语言模型的文本分类方法 [J].
周新栋 ;
王挺 .
计算机应用, 2005, (01) :11-13+16
[6]   句子相似模型和最相似句子查找算法 [J].
吕学强 ;
任飞亮 ;
黄志丹 ;
姚天顺 ;
不详 .
东北大学学报 , 2003, (06) :531-534
[7]  
基于词序方法的文本相似度计算模型[J]. 郭武斌,周宽久,苏振魁.情报学报. 2008 (06)