聚类K-means算法及并行化研究

被引：0

作者：

毛嘉莉

机构：

[1] 重庆大学

关键词：

数据挖掘,聚类,K-means,PVM,并行算法;

D O I：

暂无

年度学位：

2003

学位类型：

硕士

导师：

张玉芳;

摘要：

数据挖掘（Data Mining）,又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科，汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分组成为若干个类或簇，使得在同一个簇中的对象比较相似，而不同簇中的对象差别很大。 K-means属于聚类分析中一种基本的划分方法，常采用误差平方和准则函数作为聚类准则，该算法在处理大数据集时是相对可伸缩且高效率的，同时具有潜在的数据并行性。但是这种算法依赖于初始值的选择以及数据的输入顺序；此外，当运用误差平方和准则函数测度聚类效果时，如果各簇的形状和大小差别很大，为使误差平方和Jc值达到最小有可能出现将大的聚类簇分割的现象。针对K-means算法采用准则函数衡量聚类质量存在的局限性以及对初值的依赖性，通过分析和研究，基于多次取样一次聚类寻找最优初值的思想，提出了一种新改进的算法，并辅以实验证明了改进后算法的稳定性。为了进一步提高算法的执行效率，论文同时研究了并行K-means算法的实现。选用局域网环境，并行虚拟机PVM和LINUX，共同搭建的机群系统作为并行计算平台；在并行程序的模型上采用了Master/Slave模型。该并行算法将数据集分配到各个Slave节点机上实现数据并行，最后由Master节点机进行汇总给出结果。在研究K-means算法自身的特点以及各机器节点的处理能力的基础上，提出了一种较优的数据划分策略。论文以时间复杂度和加速比等指标从理论和实验结果两个方面对并行算法进行了评价。实验结果表明：并行K-means算法的聚类结果与串行算法相同，但执行效率得到了很大的提高。

引用

页数：61

共 16 条

[1]

一种利用代表点的有效聚类算法设计与实现 [J].

陈恩红 ;

王上飞 ;

宁岩 ;

王煦法 .

模式识别与人工智能, 2001, 14 (04) :417-422

[2]

对一种矢量量化聚类算法的改进及应用 [J].

徐燕 ;

单波 ;

王颖 .

华北电力大学学报, 2001, (03) :62-65

[3]

基于混合遗传算法的聚类分析 [J].

胡玉锁 ;

陈宗海 .

模式识别与人工智能, 2001, 14 (03) :352-355

[4]

数据挖掘中的聚类方法 [J].

王实 ;

高文 .

计算机科学, 2000, (04) :42-45

[5]

用遗传算法改进聚类分析中的K-平均算法 [J].

唐立新 ;

杨自厚 ;

王梦光 .

数理统计与应用概率, 1997, (04)

[6]

聚类分析的遗传算法方法 [J].

刘健庄 ;

谢维信 ;

黄建军 ;

李文化 .

电子学报, 1995, (11)

[7]

并行程序设计.[M].(美)BarryWilkinson;(美)MichaelAllen著;陆鑫达等译;.机械工业出版社.2002,

[8]

模式识别导论.[M].李金宗编著;.高等教育出版社.1994,

[9]

多元统计分析引论.[M].张尧庭;方开泰著;.科学出版社.1982,

[10]

K-means-type algorithm: generalized convergence theorem and characterization of local optimality..Selim S Z; Ismail M A;.IEEE Transactions on Pattern Analysis and Machine Intelligence.1984, 01

← 1 2 →