一种基于Boosting的集成学习算法在不均衡数据中的分类

被引:142
作者
李诒靖 [1 ,2 ]
郭海湘 [1 ,2 ]
李亚楠 [1 ,2 ]
刘晓 [1 ,2 ]
机构
[1] 中国地质大学经济管理学院
[2] 中国地质大学数字化商务与智能管理研究中心
基金
中央高校基本科研业务费专项资金资助;
关键词
不均衡数据; 特征提取; 分类; 石油储层;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
081102 [检测技术与自动化装置];
摘要
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果.
引用
收藏
页码:189 / 199
页数:11
相关论文
共 19 条
[1]
AdaBoost算法研究进展与展望 [J].
曹莹 ;
苗启广 ;
刘家辰 ;
高琳 .
自动化学报, 2013, 39 (06) :745-758
[2]
用于多标记学习的K近邻改进算法 [J].
张顺 ;
张化祥 .
计算机应用研究, 2011, 28 (12) :4445-4446+4450
[3]
多分类问题代价敏感AdaBoost算法 [J].
付忠良 .
自动化学报, 2011, 37 (08) :973-983
[4]
基于AUC的分类器评价和设计综述 [J].
汪云云 ;
陈松灿 .
模式识别与人工智能, 2011, 24 (01) :64-71
[5]
不平衡数据分类方法综述 [J].
杨明 ;
尹军梅 ;
吉根林 .
南京师范大学学报(工程技术版), 2008, (04) :7-12
[6]
不平衡数据集的分类方法研究 [J].
王和勇 ;
樊泓坤 ;
姚正安 ;
李成安 .
计算机应用研究, 2008, (05) :1301-1303+1308
[7]
不平衡数据分类的研究现状 [J].
林智勇 ;
郝志峰 ;
杨晓伟 .
计算机应用研究, 2008, (02) :332-336
[8]
特征选择算法研究综述 [J].
毛勇 ;
周晓波 ;
夏铮 ;
尹征 ;
孙优贤 .
模式识别与人工智能, 2007, 20 (02) :211-218
[9]
代价敏感支持向量机 [J].
郑恩辉 ;
李平 ;
宋执环 .
控制与决策 , 2006, (04) :473-476
[10]
Boosting家族AdaBoost系列代表算法 [J].
涂承胜 ;
刁力力 ;
鲁明羽 ;
陆玉昌 .
计算机科学, 2003, (03) :30-34+145