混合型缺失数据填补方法比较与应用

被引:48
作者
杨弘 [1 ]
田晶 [2 ]
王可 [1 ]
张青 [1 ]
韩清华 [2 ]
张岩波 [1 ,3 ]
机构
[1] 山西医科大学公共卫生学院流行病与卫生统计学教研室
[2] 山西医科大学附属第一医院心内科
[3] 重大疾病风险评估山西省重点实验室
关键词
混合型数据; 缺失值填补; 因子分析; 缺失森林;
D O I
暂无
中图分类号
R195.1 [卫生统计学];
学科分类号
100401 [流行病与卫生统计学];
摘要
目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法进行填补;采用错分类比例(PFC)、正则化均方根误差(NRMSE)和回归系数估计值比较填补效果。结果 FAMD与MissForest相比,对分类变量填补表现优越。缺失比例是10%时,FAMD与MissForest表现优于KNN和MICE;缺失比例是20%时FAMD明显优于其它三种方法,但是MissForest表现亦可;缺失比例是30%时,四种模型表现明显下降,处理效果均不太理想;缺失比例是50%时,虽然FAMD仍有两个变量符合优良标准,但对某些变量估计误差较大,其它三种方法填补均失效。结论 FAMD填补方法总体表现较好,面对混合型缺失数据时可以考虑优先选用。
引用
收藏
页码:395 / 399
页数:5
相关论文
共 3 条
[1]
基于R软件的缺失数据MICE填补效果研究 [J].
章涛 ;
朱麟 ;
季加东 ;
袁中尚 ;
薛付忠 ;
李秀君 .
中国卫生统计, 2015, (04) :580-584
[2]
缺失森林算法在缺失值填补中的应用 [J].
沈琳 ;
胡国清 ;
陈立章 ;
谭红专 .
中国卫生统计, 2014, 31 (05) :774-776
[3]
missMDA:a package for handling missing values in multivariate data analysis JOSSE J;HUSSON F; Journal of Statistical Software 2016,