基于聚类分析的缺失数据填补算法研究

被引:0
作者
张赤
机构
[1] 武汉轻工大学
关键词
灰色关联; 马氏距离; 聚类分析; 最近邻算法;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着信息化技术的飞速发展,电子数据的方便性、易分析性和安全性逐步提高。在实际应用中传统的手工记录方式逐渐被计算机录入方法所取代。然而在各个应用领域中普遍存在数据不完整的情况,缺失数据对计算的性能与结果会产生严重的影响,如何快速有效地对缺失的数据找到最接近真实值的替代值已成为亟待解决的问题。 为了提高填补缺失数据的准确度,该文对数据挖掘的相关算法,尤其是聚类分析进行了深入的研究,分析了MGNN(Mahalanobis-Gray and NearestNeighbor algorithm)算法,在MGNN算法的基础上改进了距离计算公式,结合聚类分析的分类功能提出了ADGMKNN(Advanced Gray-Mahalanobis andk-Nearest Neighbor algorithm)算法,用灰色关联度和马氏距离计算事例之间的距离,对聚类分析后赋予权重的距离进行排序,并选取K个最小距离,对连续型的数据用元素的平均值作填补值,对离散型的数据用最大类作填补值。 研究表明在事例之间疏密关系不明的情况下,用灰色关联分析计算多个事例之间的亲密关系效果较好;在事例之间疏密关系清楚的情况下,用欧式距离或马氏距离计算事例之间的相关程度效果较好[4],于是在两种不同情况下,灰色关联分析和欧氏距离计算事例之间相关程度的效果正好互补,结合这两者方法来衡量事例之间的关系程度会更准确。因此该文填补缺失数据的方法借鉴了MGNN算法,改进了距离计算公式,使关联度和距离成负相关。 通过随机选取WIND资讯软件2011年1月至2012年10月间一些股票月均股价作为实验数据,该文用改进的事例距离公式,结合系统聚类法中效果较好的类平均法对事例的属性分类,通过MATLAB分别用ADGMKNN算法、KNN算法和MGNN算法对相同的数据进行填补实验。实验结果表明,在缺失一个数据的情况下,ADGMKNN算法的平均误差率3.17%比KNN算法和MGNN算法的平均误差率要低;在缺失一部分数据(缺失数据占全部数据5%)的情况下,ADGMKNN算法、KNN算法与MGNN算法的误差平方根的均值分别为2.223、2.699、2.848,ADGMKNN算法比MGNN算法和KNN算法在填补缺失数据的准确率方面要高。
引用
收藏
页数:77
共 39 条
[1]
聚类分析中若干关键技术的研究 [D]. 
杨小兵 .
浙江大学,
2005
[2]
K nearest neighbours with mutual information for simultaneous classification and missing data imputation.[J].Pedro J. García-Laencina;José-Luis Sancho-Gómez;Aníbal R. Figueiras-Vidal;Michel Verleysen.Neurocomputing.2009, 7
[3]
A grey-based nearest neighbor approach for missing attribute value prediction [J].
Huang, CC ;
Lee, HM .
APPLIED INTELLIGENCE, 2004, 20 (03) :239-252
[4]
Imputing missing data [J].
Croy, CD ;
Novins, DK .
JOURNAL OF THE AMERICAN ACADEMY OF CHILD AND ADOLESCENT PSYCHIATRY, 2004, 43 (04) :380-380
[5]
Modern statistical methods for handling missing repeated measurements in obesity trial data: beyond LOCF.[J].G. L.Gadbury;C. S.Coffey;D. B.Allison.Obesity Reviews.2003, 3
[6]
Imputation of missing data in industrial databases [J].
Lakshminarayan, K ;
Harp, SA ;
Samad, T .
APPLIED INTELLIGENCE, 1999, 11 (03) :259-275
[7]
基于聚类分析的缺失数据最近邻填补算法 [J].
张赤 ;
丰洪才 ;
金凯 ;
杨婷 .
计算机应用与软件, 2014, 31 (05) :282-284
[8]
一种基于近邻规则的缺失数据填补方法 [J].
王凤梅 ;
胡丽霞 .
计算机工程, 2012, 38 (21) :53-55+62
[9]
含有周期性的时间序列中随机型缺失数据的填补方法 [J].
张熙 ;
李济宾 ;
张晋昕 .
中国卫生统计, 2012, 29 (04) :475-477
[10]
基于不完备数据聚类的缺失数据填补方法 [J].
武森 ;
冯小东 ;
单志广 .
计算机学报, 2012, 35 (08) :1726-1738