一种基于聚类约简决策树的改进随机森林算法

被引：50

作者：

王诚

王凯

机构：

[1] 南京邮电大学通信与信息工程学院

来源：

南京邮电大学学报(自然科学版) | 2019年 / 39卷 / 03期

关键词：

随机森林; 分类精度; 相似性; 聚类;

D O I：

10.14132/j.cnki.1673-5439.2019.03.013

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

140502 [人工智能];

摘要：

传统随机森林算法为了提高分类准确率,常常需要构建大量的决策树模型。由于训练数据集的复杂性以及传统随机森林在构建过程中引入的随机性,算法在训练过程中会生成部分分类性能差和相似度较高的决策树,影响模型的整体分类性能。针对这个问题,提出一种基于决策树聚类的改进随机森林算法(Trees Clustering Random Forest,TCRF),从分类精度和相似性角度去除不合格的决策树,根据AUC值从原始森林中提取出相对高精度子森林,利用基于Kappa统计量的距离度量方法对子森林聚类,从划分出的簇中选取具有代表性的树组成高精度低相似的森林。实验结果证明:改进后的算法在集成准确率以及分类效率上要高于传统随机森林算法。

引用

页码：91 / 97

页数：7

共 5 条

[1]

基于Spark的分层子空间权重树随机森林算法 [J].