学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种基于密度与网格的聚类方法
被引:0
作者
:
赵卓真
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学
中山大学
赵卓真
机构
:
[1]
中山大学
关键词
:
数据挖掘;
STING;
种子填充;
密度扩散;
网格聚类;
D O I
:
暂无
年度学位
:
2012
学位类型
:
硕士
导师
:
舒忠梅;
摘要
:
随着计算机在日常生活与生产中的普及,人们积累的数据量、信息量急剧增加。据统计,互联网一天所产生的流量信息可以装满1.68万张DVD光盘,一天内发布的博客文章有200万篇,每天上传到Facebook中的照片超过2.5亿张。如此大的数据量中隐含着巨大的的信息与知识。如何从这些海量的数据中找到有用的信息,发现有价值的知识来指导生活与生产,变得异常重要。数据挖掘就是通过ETL工具对大量的数据进行提取、转换、加载之后进行分析,以提取出其中隐含的、对人类活动有指导意义的信息与知识的过程。 聚类分析是非监督性学习,是数据挖掘中的一种分析活动。所谓物以类聚,聚类分析就是根据一定的规则将相似的数据划分到一起,从而完成非监督性的分类。聚类算法主要包括划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等。 本文首先介绍了数据挖掘的基本理论与聚类算法的分类及研究现状,在此基础上,深入地分析了当前的一个研究热点——基于密度与基于网格相结合的算法。基于密度的聚类具有可以发现任意形状的的聚簇的特点,但是它的计算复杂度高。基于网格的聚类具有高效率的特点,但是它有对边缘网格中的噪音数据识别能力差的缺点。为此,本文结合基于密度聚类与基于网格聚类的特点,提出了DDBGC(Density diffusion based Grid Clustering)算法——基于密度扩散的网格聚类方法。DDBGC算法是个两阶段算法,先以基于网格思想的算法通过密度扩散得到初步的聚簇,再基于密度的思想处理边界网格。基于密度扩散的网格聚类方法具有简单、高效的特点,并且解决了传统网格算法中无法识别噪音点的问题,是一个可实践性较高的算法。 本文基于Weka3.6平台来实现DDBGC算法,借助Weka平台所提供的一些现有功能,比如读取数据、显示数据等,进行完整的聚类实验。实验表明,DDBGC算法既具有良好的性能,又能准确地识别出噪音数据与离群点。
引用
收藏
页数:59
共 17 条
[1]
模糊神经网络的性能及其学习算法研究
[D].
论文数:
引用数:
h-index:
机构:
何春梅
.
南京理工大学,
2010
[2]
基于模糊聚类的模糊神经网络控制
[J].
论文数:
引用数:
h-index:
机构:
吴文进
;
汪洪波
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学机械与汽车工程学院
安庆师范学院物理与电气工程学院
汪洪波
;
论文数:
引用数:
h-index:
机构:
江善和
.
自动化与仪器仪表,
2009,
(03)
:9
-11+14
[3]
基于网格和最近邻居的聚类算法
[J].
陈义如
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学省部共建高性能计算与应用重点实验室
陈义如
;
论文数:
引用数:
h-index:
机构:
孙广中
;
论文数:
引用数:
h-index:
机构:
许胤龙
.
计算机辅助工程,
2008,
(01)
:81
-86
[4]
聚类算法研究
[J].
孙吉贵
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
孙吉贵
;
刘杰
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
刘杰
;
赵连宇
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
赵连宇
.
软件学报,
2008,
(01)
:48
-61
[5]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,
[6]
K-modes clustering
[J].
Chaturvedi, A
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Chaturvedi, A
;
Green, PE
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Green, PE
;
Carroll, JD
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Carroll, JD
.
JOURNAL OF CLASSIFICATION,
2001,
18
(01)
:35
-55
[7]
Extensions to the k-means algorithm for clustering large data sets with categorical values
[J].
Huang, ZX
论文数:
0
引用数:
0
h-index:
0
机构:
CSIRO, ACsys CRC, Canberra, ACT 2601, Australia
CSIRO, ACsys CRC, Canberra, ACT 2601, Australia
Huang, ZX
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(03)
:283
-304
[8]
一种基于网格的密度聚类算法研究及应用
[D].
论文数:
引用数:
h-index:
机构:
白雪
.
哈尔滨工程大学,
2009
[9]
聚类分析中的若干问题研究及应用
[D].
论文数:
引用数:
h-index:
机构:
惠周利
.
中北大学,
2009
[10]
网格聚类算法的研究
[D].
论文数:
引用数:
h-index:
机构:
张西芝
.
郑州大学,
2006
←
1
2
→
共 17 条
[1]
模糊神经网络的性能及其学习算法研究
[D].
论文数:
引用数:
h-index:
机构:
何春梅
.
南京理工大学,
2010
[2]
基于模糊聚类的模糊神经网络控制
[J].
论文数:
引用数:
h-index:
机构:
吴文进
;
汪洪波
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学机械与汽车工程学院
安庆师范学院物理与电气工程学院
汪洪波
;
论文数:
引用数:
h-index:
机构:
江善和
.
自动化与仪器仪表,
2009,
(03)
:9
-11+14
[3]
基于网格和最近邻居的聚类算法
[J].
陈义如
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学省部共建高性能计算与应用重点实验室
陈义如
;
论文数:
引用数:
h-index:
机构:
孙广中
;
论文数:
引用数:
h-index:
机构:
许胤龙
.
计算机辅助工程,
2008,
(01)
:81
-86
[4]
聚类算法研究
[J].
孙吉贵
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
孙吉贵
;
刘杰
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
刘杰
;
赵连宇
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
赵连宇
.
软件学报,
2008,
(01)
:48
-61
[5]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,
[6]
K-modes clustering
[J].
Chaturvedi, A
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Chaturvedi, A
;
Green, PE
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Green, PE
;
Carroll, JD
论文数:
0
引用数:
0
h-index:
0
机构:
Kraft Gen Foods Inc, Glenview, IL 60025 USA
Carroll, JD
.
JOURNAL OF CLASSIFICATION,
2001,
18
(01)
:35
-55
[7]
Extensions to the k-means algorithm for clustering large data sets with categorical values
[J].
Huang, ZX
论文数:
0
引用数:
0
h-index:
0
机构:
CSIRO, ACsys CRC, Canberra, ACT 2601, Australia
CSIRO, ACsys CRC, Canberra, ACT 2601, Australia
Huang, ZX
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(03)
:283
-304
[8]
一种基于网格的密度聚类算法研究及应用
[D].
论文数:
引用数:
h-index:
机构:
白雪
.
哈尔滨工程大学,
2009
[9]
聚类分析中的若干问题研究及应用
[D].
论文数:
引用数:
h-index:
机构:
惠周利
.
中北大学,
2009
[10]
网格聚类算法的研究
[D].
论文数:
引用数:
h-index:
机构:
张西芝
.
郑州大学,
2006
←
1
2
→