一种融合多种编辑距离的字符串相似度计算方法

被引:41
作者
刁兴春 [1 ,2 ]
谭明超 [1 ]
曹建军 [2 ]
机构
[1] 解放军理工大学指挥自动化学院
[2] 解放军总参第研究所
基金
中国博士后科学基金;
关键词
数据清洗; 相似重复记录; 字符串匹配; 字符串相似度; 编辑距离;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。
引用
收藏
页码:4523 / 4525
页数:3
相关论文
empty
未找到相关数据