快速中文字符串模糊匹配算法

被引:24
作者
陈开渠
赵洁
彭志威
机构
[1] 中兴通讯股份有限公司
[2] 中兴通讯股份有限公司 深圳
[3] 深圳
关键词
计算机应用; 中文信息处理; 字符串匹配; 模糊匹配; 中文字符串匹配;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将会是一个问题。本文改进了位向量方法 ,使其在应用于中文字符串时 ,空间需求降低到约 5 %。本文还利用汉字非常多的特点 ,提出一种新的基于过滤方法的中文字符串模糊匹配算法 ,BPM BM ,其速度比世界上最快的算法至少提高 14 %;在大部分情况下 ,是其速度的 1 5~ 2倍。
引用
收藏
页码:58 / 65
页数:8
相关论文
共 1 条
[1]   Faster approximate string matching [J].
BaezaYates, R ;
Navarro, G .
ALGORITHMICA, 1999, 23 (02) :127-158