基于Spark的大规模文本k-means并行聚类算法

被引:27
作者
刘鹏 [1 ,2 ]
滕家雨 [1 ,3 ]
丁恩杰 [1 ,2 ]
孟磊 [1 ,2 ]
机构
[1] 中国矿业大学物联网(感知矿山)研究中心
[2] 矿山互联网应用技术国家地方联合工程实验室
[3] 中国矿业大学信息与电气工程学院
关键词
k-means; 并行化; 文本聚类; Spark; RDD; Hadoop; MapReduce;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
引用
收藏
页码:145 / 153
页数:9
相关论文
共 19 条
[1]
云框架下的文本挖掘算法并行化研究 [D]. 
滕家雨 .
中国矿业大学,
2015
[2]
MapReduce集群多用户作业调度方法的研究与实现 [D]. 
王凯 .
国防科学技术大学,
2010
[3]
基于海量文本的语义构建方法研究 [D]. 
袁冬 .
中国海洋大学,
2012
[4]
Scalability of parallel scientific applications on the cloud [J].
Srirama, Satish Narayana ;
Batrashev, Oleg ;
Jakovits, Pelle ;
Vainikko, Eero .
SCIENTIFIC PROGRAMMING, 2011, 19 (2-3) :91-105
[5]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[6]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[7]
MapReduce并行编程模型研究综述 [J].
李建江 ;
崔健 ;
王聃 ;
严林 ;
黄义双 .
电子学报, 2011, 39 (11) :2635-2642
[8]
k-means聚类算法的MapReduce并行化实现 [J].
江小平 ;
李成华 ;
向文 ;
张新访 ;
颜海涛 .
华中科技大学学报(自然科学版), 2011, 39(S1) (自然科学版) :120-124
[9]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[10]
利用本体关联度改进的TF-IDF特征词提取方法 [J].
徐建民 ;
王金花 ;
马伟瑜 .
情报科学, 2011, 29 (02) :279-283