数据时效性修复问题的求解算法

被引:4
作者
李默涵
李建中
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
国家自然科学基金重点项目;
关键词
数据质量; 数据时效性; 数据修复; 数据质量规则; 分布表;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤.当前主要有基于规则和基于统计2类数据修复方法.基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些复杂的关联关系;基于统计的方法能够表达数据中的复杂关联关系,并修复许多通过规则难以发现和修复的错误,但是该类方法均需要学习较复杂的条件概率分布,且难以直接应用数据语义相关的领域知识.研究数据时效性的修复问题,同时,为了克服当前2类数据修复方法的缺点,提出一类新的修复规则,将规则和统计的方法结合起来修复过时数据.该规则一方面能够以传统规则的方式表达领域知识,另一方面还能够使用其特有的分布表来描述数据随时间变化的统计信息.接着,还给出了修复规则学习算法和数据时效性修复算法.真实和虚拟数据上的实验均验证了算法的有效性.
引用
收藏
页码:1992 / 2001
页数:10
相关论文
共 4 条
  • [1] 数据时效性判定问题的求解算法
    李默涵
    李建中
    高宏
    [J]. 计算机学报, 2012, 35 (11) : 2348 - 2360
  • [2] Determining the Currency of Data
    Fan, Wenfei
    Geerts, Floris
    Wijsen, Jef
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2012, 37 (04):
  • [3] Towards certain fixes with editing rules and master data[J] . Wenfei Fan,Jianzhong Li,Shuai Ma,Nan Tang,Wenyuan Yu.The VLDB Journal . 2012 (2)
  • [4] Conditional functional dependencies for capturing data inconsistencies
    Fan, Wenfei
    Geerts, Floris
    Jia, Xibei
    Kementsietsidis, Anastasios
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02):