共 5 条
基于Hadoop云平台的并行数据挖掘方法
被引:38
作者:
杨来
[1
,2
]
史忠植
[1
]
梁帆
[1
,2
]
齐保元
[1
,2
]
机构:
[1] 中科院计算技术研究所智能信息处理重点实验室
[2] 中国科学院大学
来源:
关键词:
并行数据挖掘;
决策树算法;
KD树算法;
JPA;
云计算;
D O I:
10.16182/j.cnki.joss.2013.05.040
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。
引用
收藏
页码:936 / 944
页数:9
相关论文