基于Spark的大规模文本k-means并行聚类算法

被引：27

作者：

刘鹏 ^{[1
,2
]}

滕家雨 ^{[1
,3
]}

丁恩杰 ^{[1
,2
]}

孟磊 ^{[1
,2
]}

机构：

[1] 中国矿业大学物联网(感知矿山)研究中心

[2] 矿山互联网应用技术国家地方联合工程实验室

[3] 中国矿业大学信息与电气工程学院

来源：

中文信息学报 | 2017年 / 31卷 / 04期

关键词：

k-means; 并行化; 文本聚类; Spark; RDD; Hadoop; MapReduce;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。

引用

页码：145 / 153

页数：9

共 19 条

[1]

云框架下的文本挖掘算法并行化研究 [D].