K-means聚类算法研究及应用

被引:0
作者
张建辉
机构
[1] 武汉理工大学
关键词
聚类分析; K-means算法; 客户细分;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。 k-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。本文在该算法的研究基础上,试图将该算法进行改进。同时在算法应用方面,将聚类技术用于客户细分方面,客户细分是企业能够进行有效客户管理的前提和依据,因此这方面的研究具有实际指导意义。 本文第一部分,主要阐述所研究对象的背景资料以及本文所要达到的目的,并说明研究的思路和整体内容。 第二部分,主要介绍聚类分析的基础知识和聚类分析的基本方法,分析现有的不同算法,相互比较得出各个算法的优缺点。分析了基于划分的典型算法K-means算法,对其优点和缺点进行了详细的分析。 第三部分为本文的应用部分,将聚类技术应用于客户细分,通过层次分析法建立客户的价值体系,量化客户价值;在此基础上应用聚类技术,将客户划分成不同的类,由此来有效的开展客户管理,具有一定的实际意义。目前已经有一些客户价值评价体系,但度量模型不够成熟。衡量指标一般是客户对于企业的直接利润贡献,定量上也存在一定的难度。本文运用数据挖掘的方法,从企业的实际情况出发,通过一系列可操作的客户价值评价指标,建立适合企业发展的客户价值评价模型,并由此来度量客户价值、细分客户,建立客户价值管理的决策支持系统。 第四部分为本文的核心章节。主要对k-means算法进行了改进。改进的算法A有效的解决了算法对初始值K的依赖,能够自动生成类数K;同时该算法对初始中心点选取比较严格,各中心点的距离较远,这样避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。为能进一步提高算法的计算效率,提出了改进算法B,该算法结合了抽样技术和层次凝聚算法对原算法进行了改进,得到的新算法B更有效。 最后,叙述了论文的主要工作,并指出进一步的研究方向。
引用
收藏
页数:56
共 19 条
[1]
基于蚁群聚类算法的模糊神经网络 [J].
曹晓辛 ;
李柠 ;
黄道 .
华东理工大学学报(自然科学版), 2005, (02) :215-218
[2]
基于统计方法的数据挖掘算法研究 [J].
王政霞 ;
黄大荣 .
湖北民族学院学报(自然科学版), 2005, (01) :42-44
[3]
一种利用代表点的有效聚类算法设计与实现 [J].
陈恩红 ;
王上飞 ;
宁岩 ;
王煦法 .
模式识别与人工智能, 2001, 14 (04) :417-422
[4]
模糊聚类分析最佳聚类数的确定方法研究 [J].
孙才志 ;
王敬东 ;
潘俊 .
模糊系统与数学, 2001, (01) :89-92
[5]
系统模糊聚类分析方法在房地产市场分析中的应用 [J].
李丙永 ;
顾辅柱 ;
黄河 .
重庆建筑大学学报, 2001, (01) :82-85+98
[6]
一种基于密度的快速聚类算法 [J].
周水庚 ;
周傲英 ;
曹晶 ;
胡运发 .
计算机研究与发展, 2000, (11) :1287-1292
[7]
基于数据分区的DBSCAN算法 [J].
周水庚 ;
周傲英 ;
曹晶 .
计算机研究与发展, 2000, (10) :1153-1159
[8]
用改进的RPCL算法提取聚类的最佳数目 [J].
李昕 ;
郑宇 ;
江芳泽 .
上海大学学报(自然科学版), 1999, (05) :409-413
[9]
信息系统设计中聚类分析方法的研究 [J].
贾克斌 .
北京工业大学学报, 1999, (03) :31-36
[10]
模糊聚类理论发展及其应用 [J].
谢维信 ;
高新波 ;
裴继红 .
中国体视学与图像分析, 1999, (02)