基于动态可配置规则的数据清洗方法

被引:17
作者
朱会娟 [1 ,2 ,3 ]
蒋同海 [1 ,3 ]
周喜 [1 ,3 ]
程力 [1 ,3 ]
赵凡 [1 ,3 ]
马博 [1 ,3 ]
机构
[1] 中国科学院新疆理化技术研究所多语种信息技术研究室
[2] 中国科学院大学计算机与控制学院
[3] 新疆民族语音语言信息处理重点实验室
关键词
大数据; 数据质量; 数据清洗; 动态可配置规则; 数据预处理;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。
引用
收藏
页码:1014 / 1020
页数:7
相关论文
共 9 条
[1]   基于信息熵的不确定性数据清理方法 [J].
覃远翔 ;
段亮 ;
岳昆 .
计算机应用, 2013, 33 (09) :2490-2492+2504
[2]   不确定性数据管理技术研究综述 [J].
周傲英 ;
金澈清 ;
王国仁 ;
李建中 .
计算机学报, 2009, 32 (01) :1-16
[3]   Azszp:一种基于规则的数据清洗方案 [J].
李俊奎 ;
王元珍 ;
李专 .
山东大学学报(理学版), 2007, (09) :71-74
[4]   基于正则表达式的深度包检测算法 [J].
丁晶 ;
陈晓岚 ;
吴萍 .
计算机应用, 2007, (09) :2184-2186+2193
[5]   基于兴趣特征的WUM数据预处理方法 [J].
杨明花 ;
古志民 .
计算机应用, 2006, (10) :2393-2394+2397
[6]   Interaction between Record Matching and Data Repairing [J].
Fan, Wenfei ;
Ma, Shuai ;
Tang, Nan ;
Yu, Wenyuan .
ACM JOURNAL OF DATA AND INFORMATION QUALITY, 2014, 4 (04)
[7]   Conditional functional dependencies for capturing data inconsistencies [J].
Fan, Wenfei ;
Geerts, Floris ;
Jia, Xibei ;
Kementsietsidis, Anastasios .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02)
[8]   Database repairing using updates [J].
Wijsen, J .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2005, 30 (03) :722-768
[9]  
Minimal-change integrity maintenance using tuple deletions[J] . Jan Chomicki,Jerzy Marcinkowski.Information and Computation . 2005 (1)