基于Hadoop云平台的并行数据挖掘方法

被引:38
作者
杨来 [1 ,2 ]
史忠植 [1 ]
梁帆 [1 ,2 ]
齐保元 [1 ,2 ]
机构
[1] 中科院计算技术研究所智能信息处理重点实验室
[2] 中国科学院大学
关键词
并行数据挖掘; 决策树算法; KD树算法; JPA; 云计算;
D O I
10.16182/j.cnki.joss.2013.05.040
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。
引用
收藏
页码:936 / 944
页数:9
相关论文
共 5 条
  • [1] 可视化仿真的私有云框架研究
    华翔
    康凤举
    田学伟
    王定华
    [J]. 系统仿真学报, 2011, 23 (08) : 1652 - 1656
  • [2] 基于云计算平台的航空兵训练仿真体系结构
    黄安祥
    冯晓文
    李劲松
    禹海全
    [J]. 系统仿真学报, 2011, 23(S1) (S1) : 106 - 109
  • [3] 云制造——面向服务的网络化制造新模式
    李伯虎
    张霖
    王时龙
    陶飞
    曹军威
    姜晓丹
    宋晓
    柴旭东
    [J]. 计算机集成制造系统, 2010, 16 (01) : 1 - 7+16
  • [4] 一种基于云计算理念的网络化建模与仿真平台——“云仿真平台”
    李伯虎
    柴旭东
    侯宝存
    李潭
    张雅彬
    余海燕
    韩军
    邸彦强
    黄继杰
    宋长峰
    唐震
    王鹏
    施国强
    王晓华
    [J]. 系统仿真学报, 2009, (17) : 5292 - 5299
  • [5] MULTIDIMENSIONAL BINARY SEARCH TREES USED FOR ASSOCIATIVE SEARCHING
    BENTLEY, JL
    [J]. COMMUNICATIONS OF THE ACM, 1975, 18 (09) : 509 - 517