数据挖掘中聚类分析的研究

被引:0
作者
郭军华
机构
[1] 武汉理工大学
关键词
数据挖掘; 聚类分析; 异常数据; 模糊聚类;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注和广泛兴趣。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集,每个类内的对象之间是相似的,但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性;而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下,实现满足这种要求的类的聚合。 正是由于聚类分析的重要性和特殊性,近年来在该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如划分聚类方法(Partitioning Method)、层次聚类方法(Hierarchical Method)、基于密度(Density—Based)的聚类方法、基于网格(Grid—Based)的聚类方法、基于模型(Model—Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时,则仍存在若干尚未解决的问题。 一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类(outlier)。以前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之外。但在一 些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件(数据) 往往比经常发生的事件(数据)更有挖掘价值。对异类数据的分析处理通常就 称为异类挖掘。 传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某 个类中,具有非此即彼的性质,因此这种分类的类别界限是分明的。而实际 上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适 合进行软划分。由于模糊聚类得到了样本属于各个类别的不确定性程度,表 达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更 客观地反映现实世界,从而成为聚类分析研究的主流。然而由于一般模糊聚 类方法不适用于大数据量情况,难以满足实时性要求高的场合,因此其实际 的应用不够广泛,故在该方面的研究也就逐步减少了。实际中受到普遍欢迎 的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可 以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实 现。因此,随着计算机的应用和发展,该类方法成为聚类研究的热点。
引用
收藏
页数:76
共 24 条
[1]
数据挖掘过程中的模糊聚类方法 [J].
叶飞跃 .
计算机与现代化, 2003, (09) :4-6
[2]
数据挖掘技术——模糊聚类分析在客户关系管理中的应用研究 [J].
李良 ;
陈钢 .
工业控制计算机, 2003, (08) :8-9
[3]
数据挖掘中聚类的研究 [J].
罗可 ;
蔡碧野 ;
吴一帆 ;
谢中科 ;
张丽 .
计算机工程与应用, 2003, (20) :182-184+218
[4]
数据挖掘中聚类方法比较研究 [J].
牟廉明 .
内江师范学院学报, 2003, (02) :16-20
[5]
数据挖掘及其在官方统计中的应用前景 [J].
行智国 .
江苏统计, 2003, (02) :20-22
[6]
数据挖掘的聚类方法 [J].
行小帅 ;
焦李成 .
电路与系统学报, 2003, (01) :59-67
[7]
基于模糊聚类分析的1∶25万地形图数据挖掘 [J].
杨洪泉 ;
高莉 ;
李成名 ;
何晶 .
测绘通报, 2003, (02) :14-16+20
[8]
数据挖掘中聚类分析的技术方法 [J].
汤效琴 ;
戴汝源 .
微计算机信息, 2003, (01) :3-4
[9]
统计数据挖掘与OLAP技术应用 [J].
黄守坤 .
上海统计, 2002, (10) :26-28
[10]
数据挖掘中的聚类分析 [J].
中国人民大学统计系数据挖掘中心 .
统计与信息论坛, 2002, (03) :4-10