基于向量距离的词序相似度算法

被引：9

作者：

董刊生

方金云

机构：

[1] 中国科学院计算技术研究所空间信息处理技术实验室

来源：

中文信息学报 | 2009年 / 03期

关键词：

计算机应用; 中文信息处理; 手机POI搜索; 简拼搜索; 词序相似度; 向量距离;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

手机POI搜索已经成为手机搜索的主要应用之一。该文结合手机搜索的特点以及POI数据的结构性特征采用简拼进行POI搜索。由于词序相似度是影响简拼搜索排序结果的主要因素,该文提出了基于向量距离计算词序相似度的算法。该算法采用空间向量模型作为简拼的表示方法,将提取的公共简拼映射为位置向量,进而利用位置向量间的距离计算词序相似度。通过理论分析,该算法相比基于逆序数的词序相似度算法,将时间复杂度由O(nlogn)降为O(n),空间复杂度由O(n)降为O(1)。实验结果表明,基于向量距离的词序相似度算法有效地保证了准确性,可以满足手机POI简拼搜索的应用需求,并在性能上将词序相似度的计算效率提高16.88%。

引用

页码：45 / 50

页数：6

共 7 条

[1] 句子相似度计算新方法及在问答系统中的应用 [J].

周法国 ;

杨炳儒 .

计算机工程与应用 , 2008, (01) :165-167+178

[2] 基于多层次融合的语句相似度计算模型 [J].

南铉国 ;

崔荣一 .

延边大学学报(自然科学版), 2007, (03) :191-194

[3] 句子相似模型和最相似句子查找算法 [J].

吕学强 ;

任飞亮 ;

黄志丹 ;

姚天顺 ;

不详 .

东北大学学报 , 2003, (06) :531-534

[4]

数据结构[M]. 清华大学出版社 , 严蔚敏, 1997

[5]

Set-based vector model[J] . Bruno P?ssas,Nivio Ziviani,Wagner Meira,Berthier Ribeiro-Neto.ACM Transactions on Information Systems (TOIS) . 2005 (4)

[6]

Real life information retrieval: a study of user queries on the Web[J] . Bernard J. Jansen,Amanda Spink,Judy Bateman,Tefko Saracevic.ACM SIGIR Forum . 1998 (1)

[7]

Rank-Pre-serving two-level caching for scalable search engines .2 Saraiva,P.C,Moura,E.S,Ziviani,N. Proceedings of the 24th Annual internationalACM SIGIR Conference on Research and Developmentin information Retrieval,SIGIR’01 . 2008

← 1 →