学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种融合多种编辑距离的字符串相似度计算方法
被引:41
作者
:
刁兴春
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
解放军总参第研究所
解放军理工大学指挥自动化学院
刁兴春
[
1
,
2
]
谭明超
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学指挥自动化学院
解放军理工大学指挥自动化学院
谭明超
[
1
]
曹建军
论文数:
0
引用数:
0
h-index:
0
机构:
解放军总参第研究所
解放军理工大学指挥自动化学院
曹建军
[
2
]
机构
:
[1]
解放军理工大学指挥自动化学院
[2]
解放军总参第研究所
来源
:
计算机应用研究
|
2010年
/ 27卷
/ 12期
基金
:
中国博士后科学基金;
关键词
:
数据清洗;
相似重复记录;
字符串匹配;
字符串相似度;
编辑距离;
D O I
:
暂无
中图分类号
:
TP301.6 [算法理论];
学科分类号
:
081202 ;
摘要
:
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。
引用
收藏
页码:4523 / 4525
页数:3
相关论文
未找到相关数据
未找到相关数据