基于拼音索引的中文模糊匹配算法

被引:18
作者
曹犟 [1 ,2 ]
邬晓钧 [2 ]
夏云庆 [2 ]
郑方 [2 ]
机构
[1] 清华大学计算机科学与技术系
[2] 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
关键词
文件信息处理; 拼音索引; 模糊匹配; 查询扩展;
D O I
10.16511/j.cnki.qhdxxb.2009.s1.019
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。
引用
收藏
页码:1328 / 1332
页数:5
相关论文
共 2 条
[1]   中文信息检索系统的模糊匹配算法研究和实现 [J].
王静帆 ;
邬晓钧 ;
夏云庆 ;
郑方 .
中文信息学报, 2007, (06) :59-64
[2]   A guided tour to approximate string matching [J].
Navarro, G .
ACM COMPUTING SURVEYS, 2001, 33 (01) :31-88