基于谱聚类欠取样的不均衡数据SVM分类算法

被引:28
作者
陶新民
张冬雪
郝思媛
付丹丹
机构
[1] 哈尔滨工程大学信息与通信工程学院
基金
中国博士后科学基金;
关键词
不均衡数据; SVM算法; 谱聚类; 欠取样;
D O I
10.13195/j.cd.2012.12.4.taoxm.020
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高.
引用
收藏
页码:1761 / 1768+1775 +1775
页数:9
相关论文
共 10 条
[1]   不均衡数据下基于阴性免疫的过抽样新算法 [J].
陶新民 ;
徐晶 ;
童智靖 ;
刘玉 .
控制与决策, 2010, 25 (06) :867-872+878
[2]   一种基于核SMOTE的非平衡数据集分类方法 [J].
曾志强 ;
吴群 ;
廖备水 ;
高济 .
电子学报, 2009, 37 (11) :2489-2495
[3]   重采样方法与机器学习 [J].
毕华 ;
梁洪力 ;
王珏 .
计算机学报, 2009, 32 (05) :862-877
[4]   密度敏感的半监督谱聚类 [J].
王玲 ;
薄列峰 ;
焦李成 .
软件学报, 2007, (10) :2412-2422
[5]  
Combining integrated sampling with SVM ensembles for learning from imbalanced datasets[J] . Yang Liu,Xiaohui Yu,Jimmy Xiangji Huang,Aijun An.Information Processing and Management . 2010 (4)
[6]   Cost-sensitive boosting for classification of imbalanced data [J].
Sun, Yamnin ;
Kamel, Mohamed S. ;
Wong, Andrew K. C. ;
Wang, Yang .
PATTERN RECOGNITION, 2007, 40 (12) :3358-3378
[7]  
A study of the behavior of several methods for balancing machine learning training data[J] . Gustavo E. A. P. A. Batista,Ronaldo C. Prati,Maria Carolina Monard.ACM SIGKDD Explorations Newsletter . 2004 (1)
[8]  
Mining with rarity[J] . Gary M. Weiss.ACM SIGKDD Explorations Newsletter . 2004 (1)
[9]   A multiple resampling method for learning from imbalanced data sets [J].
Estabrooks, A ;
Jo, TH ;
Japkowicz, N .
COMPUTATIONAL INTELLIGENCE, 2004, 20 (01) :18-36
[10]  
Exploratory undersam-pling for class-imbalance learning .2 Liu Xu-ying,Wu Jian-xin,Zhou Zhi-hua. IEEE Transactions on Sys-tem Man and Cybernetics:Part B . 2009