基于Hadoop平台的并行化数据分类算法研究

被引:6
作者
黄黎
顾筠
机构
[1] 江苏开放大学信息工程系
关键词
云计算; 数据分类; Hadoop; 并行计算; MapReduce;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
随着云数据规模的急剧增长,传统的基于统计学和机器学习方法的数据分类算法在处理海量、异构和复杂的Web数据时面临系统扩展性的瓶颈。在云计算平台Hadoop上,实现数据分类中特征提取、特征分析和特征分类的MapReduce化处理。通过知识推理并行化特征构造,建立概念层次结构的特征度量,与分类算法的并行化处理进行融合,在真实数据集上进行验证,与传统算法组合在精度和时间开销上进行比较,实验表明该分类算法能获得更好的准确性和加速比,是一种有效的海量数据分类方法。
引用
收藏
页码:5 / 9
页数:5
相关论文
共 6 条
[1]
KNN分类算法的MapReduce并行化实现 [J].
闫永刚 ;
马廷淮 ;
王建 .
南京航空航天大学学报, 2013, 45 (04) :550-555
[2]
基于MapReduce的ID3决策树分类算法研究 [J].
钱网伟 .
计算机与现代化, 2012, (02) :26-30
[3]
基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J].
赵卫中 ;
马慧芳 ;
傅燕翔 ;
史忠植 .
计算机科学, 2011, 38 (10) :166-168+176
[4]
云计算环境下朴素贝叶斯文本分类算法的实现 [J].
江小平 ;
李成华 ;
向文 ;
张新访 .
计算机应用, 2011, 31 (09) :2551-2554+2566
[5]
云计算环境下差别矩阵知识约简算法研究 [J].
钱进 ;
苗夺谦 ;
张泽华 .
计算机科学, 2011, 38 (08) :193-196
[6]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2010, 1