聚类分析是数据挖掘、模式识别和机器学习领域的重要研究内容。作为数据分析和理解的重要方法,聚类分析研究已经有很长的历史。几十年来,其重要性及与其他研究方向的交叉特性得到人们的肯定。目前随着人工智能和数据挖掘技术的不断深入,特别是随着各种数据源的大量涌现,如图像数据、文本数据、DNA数据、时间序列数据和Web数据等,聚类分析得到了较快发展。
聚类分析在发展的过程中已经取得了丰硕的成果,但还存在许多问题。本文主要研究聚类分析中的最佳聚类数确定问题。最佳聚类数的确定问题是聚类分析中非常重要的主题,是决定聚类质量的关键因素之一,也是聚类有效性分析的主要任务。围绕聚类分析中的最佳聚类数确定问题,本文对聚类算法和聚类有效性问题进行了较为深入的研究,并将相关算法成功应用于图像分割。本文的主要工作和研究成果包括以下几个方面:
(1)阐明了课题的研究背景和意义,分析了课题的研究现状,介绍了聚类分析的基本概念和主要研究方法,简述了聚类有效性问题以及最佳聚类数的确定方法,并概述了图像分割的基本知识。
(2)提出了两种针对K-means算法的最佳聚类数确定方法,包括KMBWP算法和IKMS算法。KMBWP算法采用本文提出的BWP有效性指标对K-means算法的聚类结果进行有效性评价,并确定样本的最佳聚类数。IKMS算法改进了K-means算法的初始聚类中心设定方法,并结合Silhouette指标来确定样本的最佳聚类数。在UCI标准数据集和人工数据集上的实验结果验证了以上两种算法的有效性。
(3)基于近邻传播聚类算法,提出了一种确定样本最佳聚类数的算法APBWP,并改进了IGP指标确定最佳聚类数的方法。比较了常用的六种有效性指标确定最佳聚类数的性能,对IGP指标确定最佳聚类数的方法进行改进。为了增强BWP指标的适用范围,改进了BWP指标的定义。在此基础上,提出了APBWP算法,用来评估近邻传播聚类算法的聚类结果和确定样本的最佳聚类数。理论研究和实验结果表明了APBWP算法的有效性。
(4)基于凝聚层次聚类算法,提出了一种确定样本最佳聚类数的算法AHBC。基于样本几何结构,设计了一种新的聚类有效性指标——CSP指标,该指标能够对非凸型结构数据进行有效性分析。AHBC算法采用凝聚层次聚类算法对数据集进行聚类,使用BWP指标对凸型结构数据的聚类结果进行有效性评价,可以确定凸型结构数据的最佳聚类数;使用CSP指标对非凸型结构数据的聚类结果进行有效性评价,用来确定非凸型结构数据的最佳聚类数。理论研究和实验结果表明了AHBC算法的有效性。
(5)基于近邻传播聚类算法和BWP指标,提出了一种灰度图像自动分割算法。该算法通过BWP指标对近邻传播聚类算法的分割结果进行有效性评估,并确定图像分割数目,再根据图像分割数,得到灰度图像分割结果。为了减少相似度矩阵和有效性分析的计算时间复杂度,提出以灰度值代替像素点在图像灰度空间进行聚类,并将聚类结果映射到像素空间,得到图像分割结果。针对聚类样本特征空间为图像灰度空间,提出在BWP指标中以绝对值距离代替欧氏距离,对分割结果进行有效性评价。多种类型的图像分割实验结果验证了算法的有效性和良好性能。
文章的最后,对本文所做的工作进行了总结,并提出了对今后研究工作的展望。