大数据环境下Web数据源质量评估方法研究

被引:18
作者
赵星 [1 ]
李石君 [1 ]
余伟 [1 ,2 ]
杨莎 [1 ]
丁永刚 [1 ]
胡亚慧 [1 ]
机构
[1] 武汉大学计算机学院
[2] 纽约州立大学宾汉姆顿分校计算机科学系
关键词
大数据; Web数据源; 数据质量评估; 全样本分析; MapReduce框架;
D O I
暂无
中图分类号
TP311.13 []; TP393.09 [];
学科分类号
1201 ; 080402 ;
摘要
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。
引用
收藏
页码:48 / 56
页数:9
相关论文
共 10 条
[1]   大数据环境下的电子商务商品实体同一性识别 [J].
胡亚慧 ;
李石君 ;
余伟 ;
杨莎 ;
甘琳 ;
王凯 ;
方其庆 .
计算机研究与发展, 2015, 52 (08) :1794-1805
[2]   Web大数据环境下的不一致跨源数据发现 [J].
余伟 ;
李石君 ;
杨莎 ;
胡亚慧 ;
刘晶 ;
丁永刚 ;
王骞 .
计算机研究与发展, 2015, (02) :295-308
[3]   基于事实抽取的Web文档内容数据质量评估 [J].
韩京宇 ;
陈可佳 .
计算机科学, 2014, 41 (11) :247-251+255
[4]   一种基于数据质量的异构多源多模态感知数据获取方法 [J].
马茜 ;
谷峪 ;
张天成 ;
于戈 .
计算机学报, 2013, 36 (10) :2120-2131
[5]   数据时效性判定问题的求解算法 [J].
李默涵 ;
李建中 ;
高宏 .
计算机学报, 2012, 35 (11) :2348-2360
[6]   A Solution of Data Inconsistencies in Data Integration——Designed for Pervasive Computing Environment [J].
王欣 ;
黄林鹏 ;
章义 ;
徐小辉 ;
陈俊清 .
JournalofComputerScience&Technology, 2010, 25 (03) :499-508
[7]   基于数据质量的Deep Web数据源排序 [J].
余伟 ;
李石君 ;
文利娟 ;
田建伟 .
小型微型计算机系统, 2010, 31 (04) :641-646
[8]  
A Data Quality in Use model for Big Data[J] . Jorge Merino,Ismael Caballero,Bibiano Rivas,Manuel Serrano,Mario Piattini.Future Generation Computer Systems . 2015
[9]  
The data quality Analyzer: A quality control program for seismic data[J] . A.T. Ringler,M.T. Hagerty,J. Holland,A. Gonzales,L.S. Gee,J.D. Edwards,D. Wilson,A.M. Baker.Computers and Geosciences . 2014
[10]   Automatic assessment of document quality in web collaborative digital libraries [J].
Dalip D.H. ;
Gonçalves M.A. ;
Cristo M. ;
Calado P. .
Journal of Data and Information Quality, 2011, 2 (03)