劣质数据库上阈值相似连接结果大小估计

被引:5
作者
张岩
杨龙
王宏志
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
代价估计; 采样估计; 劣质数据; 数据质量; 阈值;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性.
引用
收藏
页码:2159 / 2168
页数:10
相关论文
共 4 条
  • [1] Creating probabilistic databases from duplicated data
    Hassanzadeh, Oktie
    Miller, Renee J.
    [J]. VLDB JOURNAL, 2009, 18 (05) : 1141 - 1166
  • [2] Data integration with uncertainty[J] . Xin Luna Dong,Alon Halevy,Cong Yu.The VLDB Journal . 2009 (2)
  • [3] Swoosh: a generic approach to entity resolution[J] . Omar Benjelloun,Hector Garcia-Molina,David Menestrina,Qi Su,Steven Euijong Whang,Jennifer Widom.The VLDB Journal . 2009 (1)
  • [4] Entity resolu-tion with iterative blocking .2 Whang S E,Menestrina D,Koutrika G,et al. Proceedings of the35th SIGMOD International Conference on Management of Data (SIGMOD09) . 2009