交互式数据迁移系统及其相似检测效率优化

被引:11
作者
陈伟
丁秋林
谢强
机构
[1] 南京航空航天大学计算机应用研究所
关键词
数据迁移; 数据质量; 数据清理; 相似检测; 长度过滤;
D O I
暂无
中图分类号
TP311.1 [程序设计];
学科分类号
摘要
为保证数据迁移后新系统的数据质量 ,把数据清理应用于数据迁移之中 ,提出一种集成数据清理的交互式数据迁移系统 ,并分析其工作原理 .为了提高该系统中相似重复记录的检测效率 ,在相似重复记录检测中采用长度过滤等方法优化相似检测算法 ,避免了不必要的编辑距离计算 ,从而提高了整个数据迁移系统的数据迁移速度 .此外 ,构造了合适的实验环境 ,作了大量的检测实验 ,实验结果验证了长度过滤方法的科学性
引用
收藏
页码:58 / 61
页数:4
相关论文
共 2 条
[1]  
On the Weighted Mean of a Pair of Strings[J] . Horst Bunke,Xiaoyi Jiang,Karin Abegglen,Abraham Kandel.Pattern Analysis & Applications . 2002 (1)
[2]  
On the weighted mean of a pair of strings .2 Bunke H,Jiang X Y,Abegglen K,et al. Pattern Analysis & Applications . 2002