基于数据质量的Deep Web数据源排序

被引:5
作者
余伟 [1 ]
李石君 [1 ]
文利娟 [2 ]
田建伟 [1 ]
机构
[1] 武汉大学计算机学院
[2] 武汉理工大学理学院
关键词
抽样估计; 数据质量; 质量向量; 数据源排序;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.
引用
收藏
页码:641 / 646
页数:6
相关论文
共 2 条
[1]  
Discovering Interesting Relationships among Deep Web Databases: A Source-Biased Approach[J] . James Caverlee,Ling Liu,Daniel Rocco.World Wide Web . 2006 (4)
[2]   Knowing-why about data processes and data quality [J].
Lee, YW ;
Strong, DM .
JOURNAL OF MANAGEMENT INFORMATION SYSTEMS, 2003, 20 (03) :13-39