缺失数据的处理方法及其发展趋势

被引:89
作者
邓建新 [1 ,2 ]
单路宝 [1 ,2 ]
贺德强 [1 ,2 ]
唐锐 [1 ,2 ]
机构
[1] 广西大学广西制造系统与先进制造技术重点实验室
[2] 广西大学机械工程学院
关键词
缺失数据; 处理方法; 单一插补; 多重插补; 方法比较;
D O I
10.13546/j.cnki.tjyjc.2019.23.005
中图分类号
F224 [经济数学方法]; O212 [数理统计];
学科分类号
0701 ; 070104 ; 020208 ; 070103 ; 0714 ;
摘要
文章介绍了数据缺失的现象、概念、出现的领域以及产生的原因,总结了数据缺失机制和数据缺失模式;综述了目前缺失数据常用的处理方法:加权法、删除法、统计学插补法以及机器学习插补法,并综合比较了各种方法的适用范围和优缺点;最后提出了针对高维数据的缺失处理、复合缺失数据特征的处理、新领域的缺失数据处理将是未来缺失数据处理方法的研究方向。
引用
收藏
页码:28 / 34
页数:7
相关论文
共 21 条
[1]   数据质量评价述评 [J].
张宁 ;
袁勤俭 .
情报理论与实践 , 2017, (10) :135-139
[2]   数据缺失及其处理方法综述 [J].
晔沙 .
电子测试, 2017, (18) :65-67+60
[3]   大数据系统和分析技术综述 [J].
程学旗 ;
靳小龙 ;
王元卓 ;
郭嘉丰 ;
张铁赢 ;
李国杰 .
软件学报, 2014, 25 (09) :1889-1908
[4]   大数据时代下数据质量的挑战 [J].
宗威 ;
吴锋 .
西安交通大学学报(社会科学版), 2013, 33 (05) :38-43
[5]   大数据 [J].
于艳华 ;
宋美娜 .
中兴通讯技术, 2013, 19 (01) :57-60
[6]   缺失数据插补处理方法的比较研究 [J].
庞新生 .
统计与决策, 2012, (24) :18-22
[7]   缺失数据多重插补处理方法的算法实现 [J].
庞新生 .
统计与决策, 2012, (11) :88-90
[8]   期望最大化法和回归法对亚洲心血管病国际合作研究缺失数据填充效果比较 [J].
杨永利 ;
付鹏钰 ;
胡东生 ;
张卫东 ;
张梅喜 ;
王重建 ;
平智广 .
中国卫生统计, 2009, 26 (04) :367-369+373
[9]   缺失数据的多重插补方法 [J].
乔丽华 ;
傅德印 .
统计教育, 2006, (12) :4-7
[10]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082