基于MapReduce的决策树算法并行化

被引:18
作者
陆秋
程小辉
机构
[1] 桂林理工大学信息科学与工程学院
关键词
MapReduce; 属性相似度; Hadoop; 决策树; ID3算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。
引用
收藏
页码:2463 / 2465+2469 +2469
页数:4
相关论文
共 10 条
[1]  
基于HADOOP的数据挖掘研究.[D].杨宸铸.重庆大学.2010, 07
[2]  
基于MapReduce的聚类算法的并行化研究.[D].李应安.中山大学.2010, 02
[3]   基于Hadoop的Web日志挖掘 [J].
程苗 ;
陈华平 .
计算机工程, 2011, 37 (11) :37-39
[4]   基于MR的并行决策树分类算法的设计与实现 [J].
朱敏 ;
万剑怡 ;
王明文 .
广西师范大学学报(自然科学版), 2011, 29 (01) :82-86
[5]   基于属性相似度的决策树算法 [J].
陆秋 ;
程小辉 .
计算机工程, 2009, 35 (06) :82-84
[6]   基于关联度函数的决策树分类算法 [J].
韩松来 ;
张辉 ;
周华平 .
计算机应用, 2005, (11) :2655-2657
[7]   基于SPRINT方法的并行决策树分类研究 [J].
魏红宁 .
计算机应用, 2005, (01) :39-41
[8]   A MapReduce-based distributed SVM algorithm for automatic image annotation [J].
Alham, Nasullah Khalid ;
Li, Maozhen ;
Liu, Yang ;
Hammoud, Suhel .
COMPUTERS & MATHEMATICS WITH APPLICATIONS, 2011, 62 (07) :2801-2811
[9]  
云计算.[M].雷万云; 等编著.清华大学出版社.2011,
[10]  
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,