基于Hadoop的数据挖掘算法研究与实现

被引:0
作者
白云龙
机构
[1] 北京邮电大学
关键词
数据挖掘; 社会网络分析; 图算法; Hadoop; 并行算法;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
伴随着突飞猛进的计算机处理能力和海量数据的存储能力,人们能够从客观世界中积累下来的种类繁多的各种实际数据里应用统计学、数据挖掘、机器学习等相关技术来挖掘和揭示隐含在这些数据中的一般性模式和规律。在过去的十年里,研究人员已经发现具有内在网络结构的系统广泛存在于自然界和人类社会中,并逐步揭示出现实世界中的复杂网络所具有的部分独特的结构特征。 随着网络科学的兴起,基于网络和图挖掘的分析方法受到了越来越多的关注,并被广泛应用到物理、生物、政治经济、互联网络、工程开发和社会生活的各个领域。研究人员通过把现实数据抽象成网络结构,并利用来自图论、数据挖掘等方法来揭示图数据背后所隐藏的模式和交互规律,从而为人们对认知对象提供了一个前所未有认识。 本文对在具有海量数据规模的数据中如何高效地挖掘出具有实际应用意义的结果,以及如何将这些结果进一步应用到相关领域等问题进行了深入研究。目前,开源的云计算平台Hadoop已经非常稳定,被广泛的应用于很多领域,MapReduce也被证实为是高效的计算方式。因此,本文重点是如何实现基于Hadoop的、高效的数据挖掘算法。具体内容包括有:1实现了基于Hadoop的关联规则算法,并且进行了相关实验;主要对比了三种不同的apriori算法的mapreduce实现。2实现了分布式图挖掘算法,并且进行了相关实验;主要研究的图算法是计算聚类系数和子图挖掘。结果表明,这些算法能充分利用各节点机CPU的资源,提高程序的运行效率,具有良好的扩展性,为以后在海量数据中挖掘相关模式提供了更好的解决方案。3论文最后详细介绍了我们所实现的并行社会网络分析算法包的结构以及里面所包含的相关算法。在这个算法包中,包括了弱连通分量、强连通分量、单元最短路径、K-core、最小生成树、点度中间度算法等等。
引用
收藏
页数:87
共 12 条
[1]
一种关联规则Apriori算法的改进 [J].
李国志 ;
王洪春 ;
李尚国 .
重庆文理学院学报(自然科学版), 2009, 28 (01) :70-72
[2]
关联规则挖掘的DCOM实现 [J].
郑飞 .
信息技术, 2008, (03) :61-63
[3]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[4]
The worst-case time complexity for generating all maximal cliques and computational experiments [J].
Tomita, Etsuji ;
Tanaka, Akira ;
Takahashi, Haruhisa .
THEORETICAL COMPUTER SCIENCE, 2006, 363 (01) :28-42
[5]
Deeper Inside PageRank.[J].Amy N. Langville;Carl D. Meyer.Internet Mathematics.2004, 3
[6]
State of the art of graph-based data mining.[J].Takashi Washio;Hiroshi Motoda.ACM SIGKDD Explorations Newsletter.2003, 1
[7]
Pharmacophore Discovery Using the Inductive Logic Programming System PROGOL [J].
Paul Finn ;
Stephen Muggleton ;
David Page ;
Ashwin Srinivasan .
Machine Learning, 1998, 30 :241-270
[8]
A FAST PARALLEL ALGORITHM FOR THE MAXIMAL INDEPENDENT SET PROBLEM [J].
KARP, RM ;
WIGDERSON, A .
JOURNAL OF THE ACM, 1985, 32 (04) :762-773
[9]
Algorithm 457: finding all cliques of an undirected graph.[J].Coen Bron;Joep Kerbosch.Communications of the ACM.1973, 9
[10]
Finding Frequent Patterns in a Large Sparse Graph..M. Kuramochi;G. Karypis;.Proc.4th SIAM Int. Conf. on Data Mining SDM 2004.2004,