基于关联数据的一致性和时效性清洗方法

被引:40
作者
杜岳峰
申德荣
聂铁铮
寇月
于戈
机构
[1] 东北大学计算机科学与工程学院
关键词
数据一致性; 数据时效性; 大数据质量; 关联数据; 数据清洗;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFDs和CCs检测和修复,最终影响数据的整体质量.值得一提的是,这些数据通常是相互关联的,这种关联关系可以用来发现数据中的潜在错误.文中使用了一种条件合并的函数依赖(CCFDs)将关联数据放在一起进行处理.基于此,该文提出了一种基于关联数据的一致性和时效性清洗方法.在数据清洗过程中,数据的检测和修复是两个相互影响的过程.所以,该文设计了一种新的自动清洗框架,迭代地进行数据检测和数据修复.其次,该文对关联数据的一致性和时效性清洗的相关问题进行了分析,并且证明了关于CCFDs和CCs的最小代价修复问题是一个Σp2完全(NPNP)问题.进而,该文采用一种启发式的修复方法对错误进行修复.为了提高修复的准确性,该文还提出了一种修复序列图的概念.最后,通过在两组真实数据上进行实验,验证了方法的实用性和高效性.
引用
收藏
页码:92 / 106
页数:15
相关论文
共 9 条
  • [1] 数据时效性修复问题的求解算法
    李默涵
    李建中
    [J]. 计算机研究与发展, 2015, 52 (09) : 1992 - 2001
  • [2] 基于任务合并的并行大数据清洗过程优化
    杨东华
    李宁宁
    王宏志
    李建中
    高宏
    [J]. 计算机学报, 2016, 39 (01) : 97 - 108
  • [3] 数据时效性判定问题的求解算法
    李默涵
    李建中
    高宏
    [J]. 计算机学报, 2012, 35 (11) : 2348 - 2360
  • [4] Conflict resolution with data currency and consistency[J] . Wenfei Fan,Floris Geerts,Nan Tang,Wenyuan Yu.Journal of Data and Information Quality (JDIQ) . 2014 (1-2)
  • [5] Extending inclusion dependencies with conditions[J] . Shuai Ma,Wenfei Fan,Loreto Bravo.Theoretical Computer Science . 2014
  • [6] Interaction between Record Matching and Data Repairing
    Fan, Wenfei
    Ma, Shuai
    Tang, Nan
    Yu, Wenyuan
    [J]. ACM JOURNAL OF DATA AND INFORMATION QUALITY, 2014, 4 (04):
  • [7] Determining the Currency of Data
    Fan, Wenfei
    Geerts, Floris
    Wijsen, Jef
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2012, 37 (04):
  • [8] Discovering data quality rules .2 Fei Chiang,Renée J. Miller. Proceedings of the VLDB Endowment . 2008
  • [9] Increasing the expressivity of conditional functional dependencies without extra complexity .2 Bravo L,Fan W,Geerts F,et al. Proceedings of the 24th IEEE International Conference on Data Engineering . 2008