基于Hadoop云平台的并行数据挖掘方法

被引：38

作者：

杨来 ^{[1
,2
]}

史忠植 ^{[1
]}

梁帆 ^{[1
,2
]}

齐保元 ^{[1
,2
]}

机构：

[1] 中科院计算技术研究所智能信息处理重点实验室

[2] 中国科学院大学

来源：

系统仿真学报 | 2013年 / 25卷 / 05期

关键词：

并行数据挖掘; 决策树算法; KD树算法; JPA; 云计算;

D O I：

10.16182/j.cnki.joss.2013.05.040

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。

引用

页码：936 / 944

页数：9

共 5 条

[1] 可视化仿真的私有云框架研究
华翔
康凤举
田学伟
王定华
[J]. 系统仿真学报, 2011, 23 (08) : 1652 - 1656
[2] 基于云计算平台的航空兵训练仿真体系结构
黄安祥
冯晓文
李劲松
禹海全
[J]. 系统仿真学报, 2011, 23(S1) (S1) : 106 - 109
[3] 云制造——面向服务的网络化制造新模式
李伯虎
张霖
王时龙
陶飞
曹军威
姜晓丹
宋晓
柴旭东
[J]. 计算机集成制造系统, 2010, 16 (01) : 1 - 7+16
[4] 一种基于云计算理念的网络化建模与仿真平台——“云仿真平台”
李伯虎
柴旭东
侯宝存
李潭
张雅彬
余海燕
韩军
邸彦强
黄继杰
宋长峰
唐震
王鹏
施国强
王晓华
[J]. 系统仿真学报, 2009, (17) : 5292 - 5299
[5] MULTIDIMENSIONAL BINARY SEARCH TREES USED FOR ASSOCIATIVE SEARCHING
BENTLEY, JL
[J]. COMMUNICATIONS OF THE ACM, 1975, 18 (09) : 509 - 517

← 1 →