数据清理中同体不同源数据的数化算法研究

被引:5
作者
夏骄雄
徐俊
吴耿锋
机构
[1] 上海大学计算机工程与科学学院
关键词
同体不同源数据; 数化; 数据清理;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点。在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统资源进行比较,实际效果并不理想。该文提出一种新型的、利用数据数字化存储特点来查找同体不同源数据的算法,能够有效减少数据间的比较次数,并确保数据清理结果的质量。
引用
收藏
页码:71 / 73
页数:3
相关论文
共 2 条
[1]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[2]  
On Search Enhancement of the Record Linkage Process .2 Elfeky M G,Verykios V S. Proceedings of the KDD Workshop on Data Cleaning,Record Linkage,and Object Consolidation . 2003