不平衡数据分类研究及其应用

被引:38
作者
叶枫
丁锋
机构
[1] 浙江工业大学经贸管理学院
关键词
不平衡数据; k-means聚类; 召回率;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对传统机器学习算法对于不平衡数据少数类的分类精度较低的问题。分析了造成该问题的原因,进而提出一种欠抽样数据处理方法,提高少数类分类精度。该方法通过k-means算法对样本进行多次聚类,删除多数类的噪声以及多数类与少数类重叠度较高的样本。同时引入删除因子λ,降低多数类丢失特性的风险。通过对UCI数据集的实验分析,经该方法处理,分类算法对少数类的召回率和F值均有提高,证明该方法能有效提高少数类的分类精度。最后将方法应用于预测肺癌患者的术后预期寿命,患者一年期死亡率的召回率和F值分别提高42%和23%。
引用
收藏
页码:132 / 136+205 +205
页数:6
相关论文
共 10 条
[1]
基于二次随机森林的不平衡数据分类算法 [J].
刘学 ;
张素伟 .
软件, 2016, 37 (07) :75-79
[2]
一种基于聚类融合欠抽样的不平衡数据分类方法 [J].
张枭山 ;
罗强 .
计算机科学, 2015, 42(S2) (S2) :63-66
[3]
肺癌左全肺切除术后心肺并发症的发生与术前低肺功能的相关性 [J].
王丹丹 ;
陈情 ;
毕平 .
中国肿瘤临床, 2015, (07) :397-400
[4]
胸外科肿瘤患者术前医疗风险评估表在病案中的应用 [J].
胡晓星 ;
李辉 .
中国病案, 2014, 15 (11) :15-17
[5]
不平衡数据的集成分类算法综述 [J].
李勇 ;
刘战东 ;
张海军 .
计算机应用研究, 2014, 31 (05) :1287-1291
[6]
Dual autoencoders features for imbalance classification problem.[J].Wing W.Y. Ng;Guangjun Zeng;Jiangjun Zhang;Daniel S. Yeung;Witold Pedrycz.Pattern Recognition.2016,
[7]
A novel ensemble method for classifying imbalanced data [J].
Sun, Zhongbin ;
Song, Qinbao ;
Zhu, Xiaoyan ;
Sun, Heli ;
Xu, Baowen ;
Zhou, Yuming .
PATTERN RECOGNITION, 2015, 48 (05) :1623-1637
[8]
Boosted SVM for extracting rules from imbalanced data in application to prediction of the post-operative life expectancy in the lung cancer patients.[J].Maciej Zięba;Jakub M. Tomczak;Marek Lubicz;Jerzy Świątek.Applied Soft Computing Journal.2014, PA
[9]
Mining with rarity.[J].Gary M. Weiss.ACM SIGKDD Explorations Newsletter.2004, 1
[10]
"In vivo" spam filtering.[J].Tom Fawcett.ACM SIGKDD Explorations Newsletter.2003, 2