基于向量距离的词序相似度算法

被引:9
作者
董刊生
方金云
机构
[1] 中国科学院计算技术研究所空间信息处理技术实验室
关键词
计算机应用; 中文信息处理; 手机POI搜索; 简拼搜索; 词序相似度; 向量距离;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
手机POI搜索已经成为手机搜索的主要应用之一。该文结合手机搜索的特点以及POI数据的结构性特征采用简拼进行POI搜索。由于词序相似度是影响简拼搜索排序结果的主要因素,该文提出了基于向量距离计算词序相似度的算法。该算法采用空间向量模型作为简拼的表示方法,将提取的公共简拼映射为位置向量,进而利用位置向量间的距离计算词序相似度。通过理论分析,该算法相比基于逆序数的词序相似度算法,将时间复杂度由O(nlogn)降为O(n),空间复杂度由O(n)降为O(1)。实验结果表明,基于向量距离的词序相似度算法有效地保证了准确性,可以满足手机POI简拼搜索的应用需求,并在性能上将词序相似度的计算效率提高16.88%。
引用
收藏
页码:45 / 50
页数:6
相关论文
共 7 条
[1]   句子相似度计算新方法及在问答系统中的应用 [J].
周法国 ;
杨炳儒 .
计算机工程与应用 , 2008, (01) :165-167+178
[2]   基于多层次融合的语句相似度计算模型 [J].
南铉国 ;
崔荣一 .
延边大学学报(自然科学版), 2007, (03) :191-194
[3]   句子相似模型和最相似句子查找算法 [J].
吕学强 ;
任飞亮 ;
黄志丹 ;
姚天顺 ;
不详 .
东北大学学报 , 2003, (06) :531-534
[4]  
数据结构[M]. 清华大学出版社 , 严蔚敏, 1997
[5]  
Set-based vector model[J] . Bruno P?ssas,Nivio Ziviani,Wagner Meira,Berthier Ribeiro-Neto.ACM Transactions on Information Systems (TOIS) . 2005 (4)
[6]  
Real life information retrieval: a study of user queries on the Web[J] . Bernard J. Jansen,Amanda Spink,Judy Bateman,Tefko Saracevic.ACM SIGIR Forum . 1998 (1)
[7]  
Rank-Pre-serving two-level caching for scalable search engines .2 Saraiva,P.C,Moura,E.S,Ziviani,N. Proceedings of the 24th Annual internationalACM SIGIR Conference on Research and Developmentin information Retrieval,SIGIR’01 . 2008