大数据下数据预处理方法研究

被引:60
作者
孔钦
叶长青
孙赟
机构
[1] 南京大学
关键词
大数据; 预处理; 脏数据; 研究;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大数据时代下,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。数据预处理是数据分析、挖掘前一个非常重要的数据准备工作。一方面它可以保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。文中分析了预处理过程中的主要任务,总结了目前针对各类"脏数据"的几种常用的处理方法,重点阐述了数据在清洗、集成、变换和归约过程中的常用算法。通过各种预处理方法,清除冗余数据,纠正错误数据,完善残缺数据,甄选出必需的数据进行集成,使得数据信息精练化、数据格式一致化和数据存储集中化。在最精确、最可靠的最小数据集合上进行数据挖掘,大大减少了系统挖掘的开销,提高了知识发现的准确性、有效性和实用性。
引用
收藏
页码:1 / 4
页数:4
相关论文
共 8 条
  • [1] 大数据系统和分析技术综述
    程学旗
    靳小龙
    王元卓
    郭嘉丰
    张铁赢
    李国杰
    [J]. 软件学报, 2014, 25 (09) : 1889 - 1908
  • [2] 数据挖掘中的数据预处理.[D].关大伟.吉林大学.2006, 05
  • [3] 数据预处理算法的研究与应用.[D].李晓菲.西南交通大学.2006, 09
  • [4] Tutorial on practical tips of the most influential data preprocessing algorithms in data mining.[J].Salvador García;Julián Luengo;Francisco Herrera.Knowledge-Based Systems.2016,
  • [5] MRPR: A MapReduce solution for prototype reduction in big data classification.[J].Isaac Triguero;Daniel Peralta;Jaume Bacardit;Salvador García;Francisco Herrera.Neurocomputing.2015,
  • [6] A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems
    Gao, Ming
    Hong, Xia
    Chen, Sheng
    Harris, Chris J.
    [J]. NEUROCOMPUTING, 2011, 74 (17) : 3456 - 3466
  • [7] Supervised feature selection by clustering using conditional mutual information-based distances
    Martinez Sotoca, Jose
    Pla, Filiberto
    [J]. PATTERN RECOGNITION, 2010, 43 (06) : 2068 - 2081
  • [8] Mining incomplete survey data through classification
    Wang, Hai
    Wang, Shouhong
    [J]. KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 24 (02) : 221 - 233