决策树C4.5算法的优化与应用

被引:32
作者
苗煜飞 [1 ]
张霄宏 [1 ,2 ]
机构
[1] 河南理工大学计算机科学与技术学院
[2] 中国科学院深圳先进技术研究院
关键词
C4.5算法; 边界定理; Gini指标; 奥卡姆剃刀; 再带入估计;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
C4.5算法作为目前最具影响力的决策树分类算法,仍存一些不足之处。针对C4.5算法在对连续值属性离散化处理过程中比较耗时的缺点,基于Fayyad和Irani的边界定理,在连续属性离散化之后使用Gini指标代替信息熵对算法进行了化简。针对决策树算法中的过度拟合问题,基于Occam’s razor,采用再带入估计,对算法进行了改进。将上述思想应用于金融借贷数据,实验结果表明,改进的C4.5算法在保证准确率的前提下,执行时间平均降低8.74%,模型复杂度平均降低6.26%,表明了该算法的有效性。
引用
收藏
页码:255 / 258+270 +270
页数:5
相关论文
共 8 条
[1]   基于改进的C4.5算法的网络流量分类方法 [J].
周剑峰 ;
阳爱民 ;
刘吉财 .
计算机工程与应用, 2012, 48 (05) :71-74
[2]   决策树C4.5连续属性分割阈值算法改进及其应用 [J].
姚亚夫 ;
邢留涛 .
中南大学学报(自然科学版), 2011, 42 (12) :3772-3776
[3]   一种基于变精度粗糙集的C4.5决策树改进算法 [J].
刘兴文 ;
王典洪 ;
陈分雄 .
计算机应用研究, 2011, 28 (10) :3649-3651
[4]   基于C4.5决策树的流量分类方法 [J].
徐鹏 ;
林森 .
软件学报, 2009, 20 (10) :2692-2704
[5]   一种改进的C4.5算法及实验分析 [J].
刘佳 ;
王新伟 .
计算机应用与软件, 2008, 25 (12) :260-262
[6]  
A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms[J] . Tjen-Sien Lim,Wei-Yin Loh,Yu-Shan Shih.Machine Learning . 2000 (3)
[7]   ON THE HANDLING OF CONTINUOUS-VALUED ATTRIBUTES IN DECISION TREE GENERATION [J].
FAYYAD, UM ;
IRANI, KB .
MACHINE LEARNING, 1992, 8 (01) :87-102
[8]  
Induction of decision trees[J] . J. R. Quinlan.Machine Learning . 1986 (1)