基于近邻噪声处理的KNN缺失数据填补算法

被引:74
作者
郝胜轩 [1 ,2 ]
宋宏 [1 ]
周晓锋 [1 ]
机构
[1] 中国科学院沈阳自动化研究所
[2] 中国科学院大学
基金
北京市自然科学基金;
关键词
缺失数据填补; 近邻; 噪声最近邻;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
在优化算法的研究中,针对KNN算法对缺失数据的填补效果会因为原始数据中存在噪声而受到严重影响的问题,根据待填补缺失数据最近邻的近邻关系,提出了一种新的缺失数据填补算法——ENN-KNN(Eliminate Neighbor Noise k-Nearest Neighbor)。通过比较待填补缺失数据每个最近邻的真实近邻程度能够有效地识别潜在的噪声最近邻。最后使用所有非噪声最近邻对待填补缺失数据进行填补,从而消除了噪声最近邻对填补结果的影响。通过观察四组UCI数据集的仿真结果,可知ENN-KNN算法的填补准确性总体上要优于KNN算法。
引用
收藏
页码:264 / 268
页数:5
相关论文
共 5 条
[1]
基于共享反K近邻的局部离群点检测算法 [J].
潘章明 ;
陈尹立 .
计算机仿真, 2013, 30 (02) :269-273
[2]
PageRank算法研究综述 [J].
李稚楹 ;
杨武 ;
谢治军 .
计算机科学, 2011, 38(S1) (S1) :185-188
[3]
基于多K最近邻回归算法的软测量模型 [J].
王改堂 ;
李平 ;
苏成利 .
信息与控制, 2011, 40 (05) :639-645
[4]
基于k-近邻算法的定位方法设计和仿真 [J].
李文杰 ;
李文明 .
计算机仿真, 2009, 26 (04) :194-196+351
[5]
数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082