数据挖掘中的聚类算法研究

被引:0
作者
裴康
机构
[1] 北京邮电大学
关键词
数据挖掘; 聚类; k-means; Hadoop; 社交网络;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
数据挖掘是数据库研究、开发和应用最活跃的分支之一,是计算机科学领域最有发展前景的一门技术,在从海量数据中挖掘可用知识的需求的推动下诞生。数据挖掘是从大型数据集中,提取隐藏的、潜在有用的模式与规则的过程,它涵盖了概率统计、机器学习、神经网络、模式识别、信息检索、人工智能和可视化等多门学科的知识,汇集了多样化的数据分析技术。 聚类分析是数据挖掘中一个重要研究领域。聚类分析是一种无监督的学习过程,它可以按一定的规则,在没有先验知识的条件下将数据分成多个类,从而发现隐藏的模式。划分的方法、层次的方法、基于密度的方法、基于网格的方法等是聚类分析算法大体上的分类。聚类分析在文档分类、电子商务、市场分析、生物学等领域中都有广泛的应用。 本文对数据挖掘中的聚类技术进行了分析和讨论,对于聚类分析的一种现实应用,即社交网络的社团挖掘,提出了一种并行化的聚类实现方法,该方法将社交网络用户按权重进行分类分别处理,从而避免了并行canopy算法reduce阶段输入数据量过大的问题,同时具有更快的收敛速度,适合于大规模用户聚类的应用。文中首先简单阐述了数据挖掘的概念和常用技术,之后对聚类分析的概念、相关度量做了说明,并从聚类算法的分类出发,分析了各种聚类算法及关键技术;然后详细分析了一种常用的经典算法——k-means算法的缺陷和一些改进思路,对使用canopy算法得到k-means算法的聚类个数和初始聚类中心的方法,即canopy k-means算法进行了详细的讨论,通过仿真实验验证了其性能;之后对Hadoop分布式平台做了简单说明,提出了canopy算法与k-means算法的并行化策略;最后提出了一种社交网络用户聚类的并行实现方法,并且进行了实验测试。实验证明该算法相比于使用传统k-means算法以及canopy k-means算法的用户聚类方法,在效率上有很大的提高。
引用
收藏
页数:57
共 23 条
[2]
Distance metrics for high dimensional nearest neighborhood recovery: Compression and normalization.[J].Stephen L. France;J. Douglas Carroll;Hui Xiong.Information Sciences.2011, 1
[3]
Data clustering: 50 years beyond K-means.[J].Anil K. Jain.Pattern Recognition Letters.2009, 8
[4]
Interpreting TF-IDF term weights as making relevance decisions [J].
Wu, Ho Chung ;
Luk, Robert Wing Pong ;
Wong, Kam Fai ;
Kwok, Kui Lam .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2008, 26 (03)
[5]
Clustering validity checking methods.[J].Maria Halkidi;Yannis Batistakis;Michalis Vazirgiannis.ACM SIGMOD Record.2002, 3
[6]
数据挖掘中聚类算法研究进展 [J].
周涛 ;
陆惠玲 .
计算机工程与应用, 2012, 48 (12) :100-111
[7]
新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[8]
基于云计算的并行数据挖掘系统设计与实现 [J].
李凯 ;
常征 .
微计算机信息, 2011, 27 (06) :121-123
[9]
K-Means聚类算法的研究 [J].
周爱武 ;
于亚飞 .
计算机技术与发展, 2011, 21 (02) :62-65
[10]
一种新的复杂网络聚类算法 [J].
李峻金 ;
向阳 ;
牛鹏 ;
刘丽明 ;
芦英明 .
计算机应用研究, 2010, 27 (06) :2097-2099