大数据上基于Hadoop的不一致数据检测与修复算法

被引:12
作者
张安珍
门雪莹
王宏志
李建中
高宏
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
数据一致性; Map Reduce; 条件函数依赖; 数据质量;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。
引用
收藏
页码:1044 / 1055
页数:12
相关论文
共 6 条
  • [1] 数据质量模型及关系代数运算下质量传递理论与方法研究[D]. 陈卫东.国防科学技术大学. 2007
  • [2] Conditional functional dependencies for capturing data inconsistencies
    Fan, Wenfei
    Geerts, Floris
    Jia, Xibei
    Kementsietsidis, Anastasios
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02):
  • [3] Reconciling schemas of disparate data sources[J] . AnHai Doan,Pedro Domingos,Alon Y. Halevy.ACM SIGMOD Record . 2001 (2)
  • [4] Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
  • [5] Rough set approach to incomplete information systems[J] . Marzena Kryszkiewicz.Information Sciences . 1998 (1)
  • [6] Clean answers over dirty databases:a probabilistic approach .2 Andritsos P,Fuxman A,Miller R J. Proceedings of the22nd International Conference on Data Engineering,(ICDE2006) . 2006