一种编辑距离算法及其在网页搜索中的应用

被引:17
作者
薛晔伟
沈钧毅
张云
机构
[1] 西安交通大学电子与信息工程学院
关键词
网页搜索; 相关性排序; 编辑距离; 字符串匹配;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.
引用
收藏
页码:1450 / 1454
页数:5
相关论文
共 1 条
[1]  
基于改进编辑距离的中文相似句子检索[J]. 车万翔,刘挺,秦兵,李生.高技术通讯. 2004 (07)