用于不均衡数据集分类的KNN算法

被引:9
作者
孙晓燕
张化祥
计华
机构
[1] 山东师范大学信息科学与工程学院
关键词
不均衡数据集; K最近邻居(KNN)算法; 过抽样; 交叉算子;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。
引用
收藏
页码:143 / 145+236 +236
页数:4
相关论文
共 6 条
[1]   不均衡数据集文本分类中少数类样本生成方法研究 [J].
杜娟 ;
姜丽丽 ;
陈红丽 .
计算机应用研究, 2009, 26 (10) :3731-3734
[2]   不均衡数据集学习中基于初分类的过抽样算法 [J].
韩慧 ;
王路 ;
温明 ;
王文渊 .
计算机应用, 2006, (08) :1894-1897
[3]  
面向非均衡数据集的机器学习及在地学数据处理中的应用[D]. 谷琼.中国地质大学. 2009
[4]  
机器学习[M]. 机械工业出版社 , (美)TomM.Mitchell著, 2003
[5]  
遗传算法[M]. 西安交通大学出版社 , 王小平, 2002
[6]  
On evaluating performance of classifiers for rare classes .2 Joshi V. Proceedings of the 2nd IEEE International Conference on Data Mining . 2002