流式大数据下随机森林方法及应用

被引:7
作者
刘迎春
陈梅玲
机构
[1] 北京航空航天大学经济管理学院
关键词
决策树; 随机森林方法; 大数据; 流式计算; 社交网站; 搜索引擎; 分类器; 剪枝; 客户评分; 分布式系统;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。
引用
收藏
页码:1055 / 1061
页数:7
相关论文
共 5 条
[1]
大数据流式计算:关键技术及系统实例 [J].
孙大为 ;
张广艳 ;
郑纬民 .
软件学报, 2014, 25 (04) :839-862
[2]
网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[3]
大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, (01) :146-169
[4]
大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[5]
大数据分析——RDBMS与MapReduce的竞争与共生 [J].
覃雄派 ;
王会举 ;
杜小勇 ;
王珊 .
软件学报, 2012, 23 (01) :32-45