数据挖掘中基于遗传算法的聚类方法应用研究

被引:0
作者
吴多比
机构
[1] 重庆大学
关键词
数据挖掘; 聚类; 遗传算法; k-means;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。 在数据挖掘中,聚类分析也是一种很长用的技术。而聚类技术中K-means聚类分析技术又是最常用的方法。但K-means算法在实际应用中需要用户给出要聚类的数目即k的值,另外,K-means算法在运行时要首先随机产生一个初始聚类中心,然后再对使用这个初始聚类中心得到的聚类结果进行不断调整,而这个聚类结果在很大程度上受初始聚类中心选取的影响。为了消除K-means聚类算法对于用户输入k值的依赖,也为了减小K-means聚类算法受初始聚类中心的影响,本文引入了遗传算法。本文的主要工作包括: ①介绍分析了聚类算法以及遗传算法。介绍了数据挖掘的相关概念、任务、方法,然后介绍了聚类分析的概念、常见算法以及遗传算法的基本概念、研究现状等,并进行了相应的分析。 ②结合遗传算法和K-均值算法的优点,提出一种基于遗传算法的k-means聚类算法,并在该算法的基础上提出了改进的遗传聚类算法,该算法根据聚类实际情况采用可变长实数表示聚类中心,并设计新的交叉变异算子以及采用广泛使用的聚类有效性指标DB-Index作为目标函数,不仅较好地解决了K-均值聚类算法中聚类数目难以确定、对初始值敏感及易陷入局部最优等缺陷,而且算法效率及算法的精度较之以往算法有较大提高。
引用
收藏
页数:70
共 28 条
[1]
遗传算法“早熟”现象的改进策略 [J].
周洪伟 ;
原锦辉 ;
张来顺 .
计算机工程, 2007, (19) :201-203
[2]
云遗传算法及其应用 [J].
戴朝华 ;
朱云芳 ;
陈维荣 ;
林建辉 .
电子学报, 2007, (07) :1419-1424
[3]
基于一种加速收敛变异策略的交互式遗传算法 [J].
黄永青 ;
梁昌勇 ;
杨善林 ;
陆青 .
系统仿真学报, 2007, (09) :1913-1916
[4]
一种改进的实数自适应遗传算法 [J].
潘伟 ;
刁华宗 ;
井元伟 .
控制与决策, 2006, (07) :792-795+800
[5]
空间聚类算法中的K值优化问题研究 [J].
李永森 ;
杨善林 ;
马溪骏 ;
胡笑旋 ;
陈增明 .
系统仿真学报, 2006, (03) :573-576
[6]
基于混合遗传算法的K-Means最优聚类算法 [J].
吕强 ;
俞金寿 .
华东理工大学学报(自然科学版), 2005, (02) :219-222
[7]
基于实数编码的多种群并行遗传算法研究 [J].
邹琳 ;
夏巨谌 ;
胡国安 .
小型微型计算机系统, 2004, (06) :982-986
[8]
基于遗传算法的聚类分析 [J].
傅景广 ;
许刚 ;
王裕国 .
计算机工程, 2004, (04) :122-124
[9]
用改进的遗传算法实现架构恢复 [J].
李青山 ;
陈平 .
软件学报, 2003, (07) :1221-1228
[10]
自适应小生态遗传算法的理论分析和加速技术 [J].
郭观七 ;
喻寿益 ;
贺素良 .
计算机学报, 2003, (06) :753-758