聚类分析中若干关键技术的研究

被引:0
作者
杨小兵
机构
[1] 浙江大学
关键词
数据挖掘; 聚类分析; 模糊聚类; 高斯混合模型; 切换回归模型; 噪音;
D O I
暂无
年度学位
2005
学位类型
博士
导师
摘要
基于数据库的知识发现(Knowledge Discovery in Database,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(Data Mining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则、图等。 聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。本文将重点研究聚类分析中的若干关键技术和算法。 在第一章中,首先就数据挖掘进行概述,主要讨论数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:类/概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。 在第二章中,首先介绍了聚类分析的定义,聚类算法的基本要求,以及聚类中用到的主要数据类型;然后讨论了聚类分析的各种算法:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法的应用领域进行了探讨。 第三章介绍了模糊集合的基本概念,模糊集合的运算,模糊截集及分解定理,在此基础上,研究了基于模糊关系的模糊聚类及其算法,通过应用FCM算法的实例解释了模糊聚类的应用。 第四章重点研究了高斯混合模型的聚类算法,除了介绍经典的EM算法以外,还讨论了GMDD算法。由于在某些领域,为了更准确地识别出不同性质的数据,人们会根据经验利用加权函数以获得更好的聚类效果,本文以加权似然方程为
引用
收藏
页数:116
共 37 条
[1]
Likelihood-based data squashing: A modeling approach to instance construction [J].
Madigan, D ;
Raghavan, N ;
Dumouchel, W ;
Nason, M ;
Posse, C ;
Ridgeway, G .
DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (02) :173-190
[2]
An experimental comparison of model-based clustering methods [J].
Meila, M ;
Heckerman, D .
MACHINE LEARNING, 2001, 42 (1-2) :9-29
[3]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[4]
A fast parallel clustering algorithm for large spatial databases [J].
Xu, XW ;
Jäger, J ;
Kriegel, HP .
DATA MINING AND KNOWLEDGE DISCOVERY, 1999, 3 (03) :263-290
[5]
A survey of methods for scaling up inductive algorithms [J].
Provost, F ;
Kolluri, V .
DATA MINING AND KNOWLEDGE DISCOVERY, 1999, 3 (02) :131-169
[6]
Discovery of frequent episodes in event sequences [J].
Mannila, H ;
Toivonen, H ;
Verkamo, AI .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (03) :259-289
[7]
BIRCH: A new data clustering algorithm and its applications [J].
Zhang, T ;
Ramakrishnan, R ;
Livny, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (02) :141-182
[8]
Cluster analysis and mathematical programming [J].
Pierre Hansen ;
Brigitte Jaumard .
Mathematical Programming, 1997, 79 :191-215
[9]
MACHINE LEARNING - A MATURING FIELD [J].
CARBONELL, J .
MACHINE LEARNING, 1992, 9 (01) :5-7
[10]
Learning from noisy examples.[J].Dana Angluin;Philip Laird.Machine Learning.1988, 4