基于大数据的ETL中的数据清洗方案研究

被引:16
作者
周瀚章
冯广
龚旭辉
曾虎
徐启东
机构
[1] 广东工业大学自动化学院
基金
广东省自然科学基金; 广州市科技计划项目; 广东省科技计划;
关键词
数据清洗; ETL技术; 海量数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
ETL,又被称为数据仓库技术,是指数据源经过抽取(Extract)、转换(Transform)、加载(Load)的过程。在运用ETL技术的过程中,会产生一些有着错误属性的数据,特别是在大数据时代的背景下,这种错误数据量往往十分庞大,传统的数据清洗方案效果不甚理想。设计一种基于大数据的ETL的高效数据清洗方案,通过对27组数据的清洗,将数据清洗方案与传统数据清洗方案进行对比,实验结果表明:该数据清洗方案能够有效提高数据清洗的效率,并且保持较高的准确性。
引用
收藏
页码:108 / 110
页数:3
相关论文
共 8 条
[1]   ETL中的数据增量抽取机制研究 [J].
戴浩 ;
杨波 .
计算机工程与设计, 2009, 30 (23) :5552-5555
[2]   并行ETL过程的研究与实现 [J].
许力 ;
牟晓光 ;
马云存 .
计算机工程与应用 , 2009, (13) :170-172+178
[3]   数据仓库中ETL技术的研究 [J].
张宁 ;
贾自艳 ;
史忠植 .
计算机工程与应用, 2002, (24) :213-216
[4]  
Hadoop分布式数据清洗方案.[D].郭逸重.华南理工大学.2012, 01
[5]  
基于Hadoop平台的作业调度研究.[D].任萱萱.天津师范大学.2011, 10
[6]  
数据挖掘中孤立点检测算法的研究.[D].范洁.中南大学.2009, 04
[7]  
数据清洗算法的研究与应用.[D].周奕辛.青岛大学.2005, 06
[8]  
基于数据仓库的数据清洗方法研究.[D].周芝芬.东华大学.2004, 03