改进型加权KNN算法的不平衡数据集分类

被引:27
作者
王超学 [1 ]
潘正茂 [1 ]
马春森 [2 ]
董丽丽 [1 ]
张涛 [1 ]
机构
[1] 西安建筑科技大学信息与控制工程学院
[2] 中国农业科学院植物保护研究所
关键词
不平衡数据集; 分类; K最邻近算法; 权重分配模型; 遗传算法; K-means算法;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类。基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法。
引用
收藏
页码:160 / 163+168 +168
页数:5
相关论文
共 6 条
[1]   不平衡入侵检测数据的代价敏感分类策略 [J].
边婧 ;
彭新光 .
计算机应用研究, 2009, 26 (08) :3036-3038+3043
[2]   kNN文本分类器类偏斜问题的一种处理对策 [J].
郝秀兰 ;
陶晓鹏 ;
徐和祥 ;
胡运发 .
计算机研究与发展, 2009, 46 (01) :52-61
[3]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[4]  
基于群体智能的聚类分析[D]. 曲建华.山东师范大学 2010
[5]   A multi-objective optimisation approach for class imbalance learning [J].
Soda, Paolo .
PATTERN RECOGNITION, 2011, 44 (08) :1801-1810
[6]   Neighbor-weighted K-nearest neighbor for unbalanced text corpus [J].
Tan, SB .
EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) :667-671