聚类分析结果评价方法研究

被引:0
作者
胡勇
机构
[1] 内蒙古科技大学
关键词
聚类分析; K-means算法; 组合评估; PolyAnalyst软件;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
数据挖掘是当前在大数据分析中被广泛应用的一门技术;其中,聚类算法主要是通过无监督的方式对数据进行聚类,它包含了对各种数据类型进行聚类的多种算法,因而得到许多的计算机人员与统计人员的重视。虽然其中的各种算法的已经被广泛应用。但是没有一种算法能够对所有的数据类型是通用的,同时针对这种无监督类型进行聚类的效果,聚类的质量指标评价是非常重要的。但是,如果要通过聚类评价指标来判断聚类效果的好坏,以及实现最佳的聚类通常在计算的方面与评价方面还比较困难。 论文在基于PolyAnalyst软件下,根据聚类的K-means算法针对不同类型的数据集进行了可视化的聚类,就K-means实验后的结论进行了深入的分析研究,并且辅以大量的可视化散点图和实例数据集实验结果图。根据清晰的实例图与鲜明的结果,本课题提出了一种新型的组合指标评价方法,来验证聚类的质量效果。该算法引进了三个概念:第一,组合概念,该指标不同于传统的指标评价,它运用了传统指标与新改进的指标相结合来评价聚类的质量效果;第二,图形颜色所占百分比概念,根据聚类间类与类所符合阈值的颜色百分比来进行评价;第三,离散度概念,它针对于整体和局部的计算进行评价。实验的验证证明了该指标的有效性和精密性。 最后,文章在基于K-means算法的结果与所需求的结果散点图进行比较,运用了四种不同类型的数据簇集进行了详尽的描述和验证。在不同类型的数据集上的实验结果表明,课题提出的组合评价质量聚类算法是有效的与可用的。组合指标加强了聚类算法结果的解释性与算法的适用性。实验表明,本论文的K-means法和组合模式评估方法对处理实数据集的聚类是有效的,可用性较高,聚类结果的可解释性良好。
引用
收藏
页数:96
共 41 条
[1]
动态数据库增量式挖掘算法及其应用的研究 [D]. 
董一鸿 .
浙江大学,
2007
[2]
数据挖掘中聚类若干问题研究 [D]. 
赵恒 .
西安电子科技大学,
2005
[3]
模糊聚类新算法与聚类有效性问题研究 [D]. 
范九伦 .
西安电子科技大学,
1998
[4]
数据挖掘技术及应用.[M].陈安;陈宁;周龙骧等编著;.科学出版社.2006,
[5]
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[6]
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,
[7]
数据挖掘教程.[M].()MargaretH.Dunham著;郭崇慧;田凤占;靳晓明等译;.清华大学出版社.2005,
[8]
数据挖掘原理与技术.[M].张云涛;龚玲著;.电子工业出版社.2004,
[9]
数据挖掘原理.[M].(英) 汉德 (Hand;D.) ; 著.机械工业出版社.2003,
[10]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,