K-均值聚类算法初始中心选取相关问题的研究

被引:0
作者
吴晓蓉
机构
[1] 湖南大学
关键词
数据挖掘; 聚类; K-均值聚类算法; 初始中心; 特征加权;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
数据挖掘是指从数据库中发现隐含的、新颖的、对决策有潜在价值的知识和规则的过程,已经在许多领域得到了广泛的应用。聚类分析是数据挖掘领域最为重要的技术之一,至今已在理论和方法上取得了丰硕的研究成果。聚类已经被广泛的研究了许多年,主要集中在基于距离的聚类算法上,其中以K-均值聚类算法最为经典。 K-均值算法是一种典型的基于划分的方法,该算法的优点是思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。但是该算法存在如下缺点:聚类个数K需要预先给定;算法对初值敏感;算法易陷入局部极小,并且一般只能发现球状簇。 本文主要深入研究和分析了聚类算法中的经典K-均值聚类算法,总结出其优点和不足。重点分析了K-均值聚类算法对初始值的依赖性,并用大量的实验验证了随机选取初始值对聚类结果的影响性。针对K-均值算法对初始中心值选取的依赖性,提出了两种新的初始中心值选取方法。 主要研究内容和工作成果如下: 1.基于Huffman树构造的思想,提出了一种新的选取K-均值聚类算法初始中心点方法,改善K-均值聚类算法随机选取初始中心点而导致的聚类结果不稳定,容易陷入局部最优而非全局最优的不良结果。 2.采用最大距离法来选取K-均值聚类算法初始中心点,使得选出的中心点能在一定程度上代表不同的簇,提高了划分初始数据集的效率,克服了K-均值聚类算法中随机选取的初始中心点很大可能过于邻近,多个初始中心被选择在同一簇中,而小簇中没有聚类种子的不好情况。另外引入特征加权的方法,区别不同特征对聚类的贡献不同,来提高聚类的有效性。
引用
收藏
页数:65
共 21 条
[1]
用于数据挖掘的聚类算法 [J].
姜园 ;
张朝阳 ;
仇佩亮 ;
周东方 .
电子与信息学报, 2005, (04) :655-662
[2]
一种新的中心对称聚类算法 [J].
林嘉宜 ;
许剑峰 ;
彭宏 .
计算机科学, 2003, (06) :136-138
[3]
文档聚类中k-means算法的一种改进算法 [J].
万小军 ;
杨建武 ;
陈晓鸥 .
计算机工程, 2003, (02) :102-103+157
[4]
模糊聚类分析最佳聚类数的确定方法研究 [J].
孙才志 ;
王敬东 ;
潘俊 .
模糊系统与数学, 2001, (01) :89-92
[5]
用改进的RPCL算法提取聚类的最佳数目 [J].
李昕 ;
郑宇 ;
江芳泽 .
上海大学学报(自然科学版), 1999, (05) :409-413
[6]
用遗传算法改进聚类分析中的K-平均算法 [J].
唐立新 ;
杨自厚 ;
王梦光 .
数理统计与应用概率, 1997, (04)
[7]
GA—HCM混合聚类算法及其在液体火箭发动机故障检测中的应用 [J].
谢涛 ;
张育林 .
推进技术, 1997, (01) :36-42
[8]
Clustering data with measurement errors [J].
Kumar, Mahesh ;
Patel, Nitin R. .
COMPUTATIONAL STATISTICS & DATA ANALYSIS, 2007, 51 (12) :6084-6101
[9]
Automatic subspace clustering of high dimensional data [J].
Agrawal, R ;
Gehrke, J ;
Gunopulos, D ;
Raghavan, P .
DATA MINING AND KNOWLEDGE DISCOVERY, 2005, 11 (01) :5-33
[10]
An optimization algorithm for clustering using weighted dissimilarity measures [J].
Chan, EY ;
Ching, WK ;
Ng, MK ;
Huang, JZ .
PATTERN RECOGNITION, 2004, 37 (05) :943-952