中文信息检索系统的模糊匹配算法研究和实现

被引:18
作者
王静帆
邬晓钧
夏云庆
郑方
机构
[1] 清华大学计算机系清华信息科学与技术国家实验室技术创新和开发部语音和语言技术中心
关键词
计算机应用; 中文信息处理; 模糊匹配; 过滤算法; 动态规划;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
在现代中文信息检索系统中,用户输入的字符串和实际数据库中的条目往往存在局部偏差,而基于关键词匹配的检索技术不能很好地解决这一问题。本文参考并改进了Tarhio和Ukkonen提出的过滤算法[1],针对汉字拼音输入法中常出现的同音字/近音字混用现象,将算法进一步扩展到广义的Edit Distance上。实验表明,本文提出的算法能有效提高中文信息检索系统的召回率,在实际应用中可达到"子线性"的效率。
引用
收藏
页码:59 / 64
页数:6
相关论文
共 4 条
[1]   快速中文字符串模糊匹配算法 [J].
陈开渠 ;
赵洁 ;
彭志威 .
中文信息学报, 2004, (02) :58-65
[2]  
Fast and flexible string matching by combining bit-parallelism and suffix automata[J] . Gonzalo Navarro,Mathieu Raffinot.Journal of Experimental Algorithmics (JEA) . 2000
[3]  
Fast text searching[J] . Sun Wu,Udi Manber.Communications of the ACM . 1992 (10)
[4]  
A fast string searching algorithm[J] . Robert S. Boyer,J. Strother Moore.Communications of the ACM . 1977 (10)