基于数据密集性的自适应K均值初始化方法

被引:20
作者
韩最蛟
机构
[1] 四川行政学院计算机系
关键词
聚类; K均值; 初始化; 初始聚类中心选取;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方法分为两个过程,第一个过程给出数据密集性的定义,并基于数据密集性选出满足条件的候选初始聚类中心,第二个过程是对选出的候选初始中心进行后处理,使其个数与数据类一致。实验证明,提出的方法有如下优势:1)能够自主发现数据集中数据分布的密集性,并能够合理找出初始聚类中心;2)对离群点和噪声鲁棒;3)减少了K均值聚类算法的迭代步骤;4)易于实现。
引用
收藏
页码:182 / 187
页数:6
相关论文
共 7 条
  • [1] 改进的层次K均值聚类算法[J].胡伟. 计算机工程与应用.2013(02)
  • [2] K-means聚类算法的研究[J].韩晓红,胡彧. 太原理工大学学报.2009(03)
  • [3] Acomparativestudyofefficientinitializationmethodsforthek-meansclusteringalgorithm[J].M.EmreCelebi,HassanA.Kingravi,PatricioA.Vela. ExpertSystemsWithApplications.2013(1)
  • [4] CarefulSeedingMethodbasedonIndependentComponentsAnalysisfork-meansClustering[J].TakashiOnoda,MihoSakai,SeijiYamada. JournalofEmergingTechnologiesinWebIntelligence.2012(1)
  • [5] Dataclustering:50yearsbeyondK-means[J].AnilK.Jain. PatternRecognitionLetters.2009(8)
  • [6] Dataclustering[J].A.K.Jain,M.N.Murty,P.J.Flynn. ACMComputingSurveys(CSUR).1999(3)
  • [7] Newmethodsfortheinitialisationofclusters[J].Moh’dB.Al-Daoud,StuartA.Roberts. PatternRecognitionLetters.1996(5)