缺失值处理统计方法的模拟比较研究及应用

被引:0
作者
茅群霞
机构
[1] 四川大学
关键词
缺失值; 填补方法; 模拟技术; 多重填补法; 马尔可夫; 链蒙特卡罗法;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
目的 通过数据模拟技术比较MI和其它缺失值填补方法的优劣,探讨各自的适用性。将适用于本研究资料的填补方法应用于缺失值填补,为进一步的数据分析及相关因素研究奠定基础。 方法 横断面资料单调缺失模式连续变量的处理:采用Ad hoc法和条件均数填补法(conditional mean imputation)进行处理,并采用MI中的趋势得分法(propensity score,PS)和预测均数匹配法(predictive mean matching,PMM)进行填补并做比较。横断面资料单调缺失模式分类变量的处理:采用Ad hoc法和MI中的logistic回归方法进行处理并做比较。横断面资料任意缺失模式连续变量的处理:采用Ad hoc方法处理并与MI中的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法填补结果进行比较。纵向资料缺失数据的处理:采用Ad hoc方法、LOCF法处理并与MI方法中的MCMC模型填补结果进行比较。最后,采用MI中的MCMC模型进行了实例应用。 结果 当数据缺失率低于10%时,用Ad hoc方法即可处理;横断面单调缺失数据缺失率低于20%时,条件均数填补法结果较优;纵向数据缺失率低于20%时,LOCF填补结果较优;当数据缺失超过20%时,MI填补效果较优;其中,当分类变量缺失率超过40%时MI填补无效;对于横断面连续变量,缺失率不超过60%时,MI结果较优;而对于纵向资料连续变量的处理,MI的优势范围相对狭窄,缺失率在20%~40%。不管是横断面资料还是纵向
引用
收藏
页数:136
共 10 条
[1]
现代医学统计学.[M].方积乾;陆盈主编;.人民卫生出版社.2002,
[2]
世界优秀统计工具SPSS 11统计分析教程.[M].张文彤主编;.北京希望电子出版社.2002,
[3]
时间序列分析.[M].王振龙主编;.中国统计出版社.2000,
[4]
运用SAS对不完整数据集进行多重填补——SAS 9中的多重填补及其统计分析过程(一) [J].
曹阳 ;
张罗漫 ;
不详 .
中国卫生统计 , 2004, (01)
[5]
多重填补的方法及其统计推断原理 [J].
曹阳 ;
谢万军 ;
张罗漫 .
中国医院统计, 2003, (02) :77-81
[6]
统计调查中的数据缺失及处理 [J].
李薇 .
商业研究 , 2003, (06) :162-163
[7]
含缺失值时间序列的ARMA模型拟合 [J].
张晋昕 ;
王亚拉 ;
何大卫 .
中国卫生统计, 2000, (04)
[8]
不完全数据的完全化及其模拟结果 [J].
钟漫如 ;
苗巧云 ;
王旭 .
数理医药学杂志, 1998, (01)
[9]
不完全数据的全信息回归系数估计及其模拟结果 [J].
夏结来 ;
郭祖超 ;
颜光宇 .
中国卫生统计, 1995, (03) :4-7
[10]
不完全资料下logistic回归模型参数估计的EM算法 [J].
孙晓武 ;
陈启光 .
数学的实践与认识, 1994, (02) :30-34