云框架下的文本挖掘算法并行化研究

被引:0
作者
滕家雨
机构
[1] 中国矿业大学
关键词
文本挖掘; 并行化; K-Means; Naive Bayes; Spark;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
随着信息社会的发展,数据规模不断增长,其中主要是以文本的形式存在。如何在有效时间内从大规模文本中挖掘有用信息成为热点研究问题,因此,文本挖掘的并行化研究越来越受到关注。近几年已经有许多基于Map Reduce的文本挖掘算法并行化的实现,能够处理大规模文本,但是仍然存在并行化效率不高、算法实现困难等诸多问题。基于新一代内存大数据处理架构Spark,本文提出新型的大规模文本挖掘并行化算法,主要目的就是在保证文本挖掘精度(有效性)的基础上提高挖掘效率。文本聚类与分类技术是文本挖掘的基础和核心,针对传统文本聚类/分类算法在处理大规模文本时速度缓慢甚至无法处理问题,本文完成了如下几个方面的工作:(1)研究了大规模数据并行处理技术。首先分析了传统并行框架Hadoop的分布式文件系统HDFS和并行计算Map Reduce模型,而后重点研究了新一代并行计算系统Spark的关键技术:弹性分布式数据集RDD以及Spark编程模型。(2)对文本聚类与分类相关技术进行了研究,其中对文本聚类和分类的处理流程进行了详细分析和说明。(3)基于Spark的编程框架,设计了K-Means文本聚类和Naive Bayes文本分类并行化处理算法,对系统进行了优化,与基于Hadoop的实现进行了性能对比。基于集群的实验结果表明,本文提出的基于Spark的文本挖掘并行化算法在保证有效性和准确性的基础上,切实提高了大规模文本挖掘效率,同时算法本身具有高可靠性和易扩展性的优点。与基于Hadoop的实验对比发现,在运行时间、加速比、可扩展性等主要性能指标中都有着更突出的表现,证明了本文工作的有效性.
引用
收藏
页数:72
共 35 条
[1]
开源中文分词器的比较研究 [D]. 
黄翼彪 .
郑州大学,
2013
[2]
文本挖掘若干关键技术研究 [D]. 
李芳 .
北京化工大学,
2010
[3]
基于Hadoop的Web文本分类系统设计研究 [J].
赵文娟 .
兰州大学学报(自然科学版), 2014, 50 (06) :892-896
[4]
基于LDA-wSVM模型的文本分类研究 [J].
李锋刚 ;
梁钰 ;
GAO Xiaozhi ;
ZENGER Kai .
计算机应用研究, 2015, 32 (01) :21-25
[5]
云计算环境下的一种改进的贝叶斯文本分类算法 [J].
张琳 ;
邵天昊 .
计算机科学, 2014, 41(S1) (S1) :339-342
[6]
最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[7]
文本自动分类研究——基于径向基函数 [J].
黄翠玉 .
情报科学, 2013, 31 (05) :67-71
[8]
一种基于复杂网络的中文文本分类算法.[J].赵辉;刘怀亮;张倩;.情报学报.2012, 11
[9]
一种组合型中文分词方法 [J].
郑晓刚 ;
韩立新 ;
白书奎 ;
曾晓勤 .
计算机应用与软件, 2012, 29 (07) :26-28+39
[10]
MapReduce并行编程模型研究综述 [J].
李建江 ;
崔健 ;
王聃 ;
严林 ;
黄义双 .
电子学报, 2011, 39 (11) :2635-2642