数据挖掘技术中聚类算法的研究

被引:0
作者
施培蓓
机构
[1] 江南大学
关键词
聚类分析; 评价函数; 谱聚类; 初始化敏感;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着信息技术的迅速发展,需要分析和管理的数据日益增多。为了从数据中发现有价值的知识和规律,人们提出用数据挖掘来解决这一难题。数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。作为数据挖掘的重要工具之一,聚类技术得到越来越多的关注,至今已提出了大量的理论和方法。随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。本文对数据挖掘技术,尤其是对聚类分析进行了较为系统的分析和研究,介绍了一些改进的算法,主要内容如下: (1)介绍了数据挖掘的产生与发展以及数据挖掘中聚类分析的发展方向,总结了划分方法、层次方法、基于网格和密度聚类方法以及其他聚类方法的国内外发展现状,最后介绍了本文的主要研究内容和章节安排。 (2)简要介绍了聚类算法的定义、相似性度量,聚类算法的分类和聚类方法的评价。详细讨论了数据挖掘中常用的聚类算法及其基本原理,最后对聚类算法的评价进行了讨论。 (3)详细讨论传统k-means算法的基本思想、算法流程和算法性能。传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优的聚类数目也不是很理想。针对这些问题,研究了一种新的评价函数-均衡化函数,同时采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。 (4)详细讨论了常用的几个划分判据,介绍谱聚类算法的基本框架和代表性算法,同时给出谱聚类算法的理论解释。通过分析谱聚类初始化敏感的特点,引入对初值不敏感的KHM算法克服这一缺点,在此基础上研究了初始化独立的谱聚类算法。实验结果表明该算法的有效性和可行性。 最后,对论文的工作进行回顾和总结,就进一步有待研究的问题进行讨论和展望。
引用
收藏
页数:57
共 23 条
[1]
模糊聚类新算法与聚类有效性问题研究 [D]. 
范九伦 .
西安电子科技大学,
1998
[2]
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,
[3]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[4]
模式识别.[M].[美]J.P.MarquesdeSa著;吴逸飞译;.清华大学出版社.2002,
[5]
Rough clustering of sequential data [J].
Kumar, Pradeep ;
Krishna, P. Radha ;
Bapi, Raju. S. ;
De, Supriya Kumar .
DATA & KNOWLEDGE ENGINEERING, 2007, 63 (02) :183-199
[6]
Investigating diversity of clustering methods: An empirical comparison [J].
Gelbard, Roy ;
Goldman, Orit ;
Spiegler, Israel .
DATA & KNOWLEDGE ENGINEERING, 2007, 63 (01) :155-166
[7]
Time-focused clustering of trajectories of moving objects [J].
Nanni, Mirco ;
Pedreschi, Dino .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2006, 27 (03) :267-289
[8]
An iterative initial-points refinement algorithm for categorical data clustering [J].
Sun, Y ;
Zhu, QM ;
Chen, ZX .
PATTERN RECOGNITION LETTERS, 2002, 23 (07) :875-884
[9]
K-modes clustering [J].
Chaturvedi, A ;
Green, PE ;
Carroll, JD .
JOURNAL OF CLASSIFICATION, 2001, 18 (01) :35-55
[10]
Rock: A robust clustering algorithm for categorical attributes [J].
Guha, S ;
Rastogi, R ;
Shim, K .
INFORMATION SYSTEMS, 2000, 25 (05) :345-366