一种基于密度与网格的聚类方法

被引:0
作者
赵卓真
机构
[1] 中山大学
关键词
数据挖掘; STING; 种子填充; 密度扩散; 网格聚类;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
随着计算机在日常生活与生产中的普及,人们积累的数据量、信息量急剧增加。据统计,互联网一天所产生的流量信息可以装满1.68万张DVD光盘,一天内发布的博客文章有200万篇,每天上传到Facebook中的照片超过2.5亿张。如此大的数据量中隐含着巨大的的信息与知识。如何从这些海量的数据中找到有用的信息,发现有价值的知识来指导生活与生产,变得异常重要。数据挖掘就是通过ETL工具对大量的数据进行提取、转换、加载之后进行分析,以提取出其中隐含的、对人类活动有指导意义的信息与知识的过程。 聚类分析是非监督性学习,是数据挖掘中的一种分析活动。所谓物以类聚,聚类分析就是根据一定的规则将相似的数据划分到一起,从而完成非监督性的分类。聚类算法主要包括划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等。 本文首先介绍了数据挖掘的基本理论与聚类算法的分类及研究现状,在此基础上,深入地分析了当前的一个研究热点——基于密度与基于网格相结合的算法。基于密度的聚类具有可以发现任意形状的的聚簇的特点,但是它的计算复杂度高。基于网格的聚类具有高效率的特点,但是它有对边缘网格中的噪音数据识别能力差的缺点。为此,本文结合基于密度聚类与基于网格聚类的特点,提出了DDBGC(Density diffusion based Grid Clustering)算法——基于密度扩散的网格聚类方法。DDBGC算法是个两阶段算法,先以基于网格思想的算法通过密度扩散得到初步的聚簇,再基于密度的思想处理边界网格。基于密度扩散的网格聚类方法具有简单、高效的特点,并且解决了传统网格算法中无法识别噪音点的问题,是一个可实践性较高的算法。 本文基于Weka3.6平台来实现DDBGC算法,借助Weka平台所提供的一些现有功能,比如读取数据、显示数据等,进行完整的聚类实验。实验表明,DDBGC算法既具有良好的性能,又能准确地识别出噪音数据与离群点。
引用
收藏
页数:59
共 17 条
[1]
模糊神经网络的性能及其学习算法研究 [D]. 
何春梅 .
南京理工大学,
2010
[2]
基于模糊聚类的模糊神经网络控制 [J].
吴文进 ;
汪洪波 ;
江善和 .
自动化与仪器仪表, 2009, (03) :9-11+14
[3]
基于网格和最近邻居的聚类算法 [J].
陈义如 ;
孙广中 ;
许胤龙 .
计算机辅助工程, 2008, (01) :81-86
[4]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[5]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,
[6]
K-modes clustering [J].
Chaturvedi, A ;
Green, PE ;
Carroll, JD .
JOURNAL OF CLASSIFICATION, 2001, 18 (01) :35-55
[7]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[8]
一种基于网格的密度聚类算法研究及应用 [D]. 
白雪 .
哈尔滨工程大学,
2009
[9]
聚类分析中的若干问题研究及应用 [D]. 
惠周利 .
中北大学,
2009
[10]
网格聚类算法的研究 [D]. 
张西芝 .
郑州大学,
2006