基于犹豫模糊决策树的非均衡数据分类

被引:20
作者
张旭
周新志
赵成萍
邵伦
机构
[1] 四川大学电子信息学院
关键词
非均衡数据; 犹豫模糊集; 犹豫模糊决策树; K-means聚类; Fuzzy ID3算法;
D O I
10.19678/j.issn.1000-3428.0051759
中图分类号
TP18 [人工智能理论]; TP311.13 [];
学科分类号
140502 [人工智能];
摘要
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6%。
引用
收藏
页码:75 / 79+91 +91
页数:6
相关论文
共 11 条
[1]
Generating fuzzy rule base classifier for highly imbalanced datasets using a hybrid of evolutionary algorithms and subtractive clustering [J].
Mahdizadeh, M. ;
Eftekhari, M. .
JOURNAL OF INTELLIGENT & FUZZY SYSTEMS, 2014, 27 (06) :3033-3046
[2]
Correlation coefficients of hesitant fuzzy sets and their applications to clustering analysis [J].
Chen, Na ;
Xu, Zeshui ;
Xia, Meimei .
APPLIED MATHEMATICAL MODELLING, 2013, 37 (04) :2197-2211
[3]
Cost-sensitive boosting for classification of imbalanced data [J].
Sun, Yamnin ;
Kamel, Mohamed S. ;
Wong, Andrew K. C. ;
Wang, Yang .
PATTERN RECOGNITION, 2007, 40 (12) :3358-3378
[4]
A study of the behavior of several methods for balancing machine learning training data.[J].Gustavo E. A. P. A. Batista;Ronaldo C. Prati;Maria Carolina Monard.ACM SIGKDD Explorations Newsletter.2004, 1
[5]
INDUCTION OF FUZZY DECISION TREES [J].
YUAN, YF ;
SHAW, MJ .
FUZZY SETS AND SYSTEMS, 1995, 69 (02) :125-139
[6]
适用于不平衡数据集分类的改进SVM算法 [J].
刘东启 ;
陈志坚 ;
徐银 ;
李飞腾 .
传感器与微系统, 2018, 37 (03) :115-117+122
[7]
不平衡数据分类研究及其应用 [J].
叶枫 ;
丁锋 .
计算机应用与软件, 2018, 35 (01) :132-136+205
[8]
基于新型不纯度度量的代价敏感随机森林分类器 [J].
师彦文 ;
王宏杰 .
计算机科学, 2017, 44(S2) (S2) :98-101
[9]
不平衡数据分类的混合算法 [J].
韩敏 ;
朱新荣 .
控制理论与应用, 2011, 28 (10) :1485-1489
[10]
针对不平衡数据集的Bagging改进算法 [J].
李明方 ;
张化祥 .
计算机工程与应用 , 2010, (30) :40-42