聚类分析研究及其在文本挖掘中的应用

被引：0

作者：

杨占华

机构：

[1] 西南交通大学

关键词：

数据挖掘; 聚类分析; 文本挖掘; K-means; 自组织特征映射;

D O I：

暂无

年度学位：

2006

学位类型：

硕士

导师：

杨燕;

摘要：

我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。本文对数据挖掘技术,尤其是文本挖掘和聚类分析进行了较为系统地分析和研究,提出了一些改进算法。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。聚类分析依据经原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象相似性较小。由于聚类分析的重要性和特殊性,近年来该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如基于划分(Partition-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。本文首先系统介绍了各种聚类算法,分析了聚类算法的关键技术,然后在原有算法基础上,给出了两种改进算法:一种是对自组织特征映射(Self-Organizing feature Maps,SOM)算法的改进,通过对SOM算法中的权值初始化进行了重点分析和讨论,针对权值随机初始化,其网络模型训练时间长的缺点,提出了从待聚类的数据集中找出k个有代表性的点对SOM网络权值进行初始化。改进后的SOM算法减小了网络的训练时间。另一种是提出了一种聚类组合算法,针对K-means算法初始聚类中心选取不当对聚类结果影响较大的问题,提出了一种把自组织特征映射和K-means算法相结合的方法,先用SOM算法对数据进行粗略的聚类,然后用SOM的连接权值对K-means算法的初始聚类中心进行初始化,此聚类组合算法提高了聚类效率。最后设计了一个文本聚类系统,并用Reuters-21578中的数据和Web数据进行实验,验证了此改进算法。

引用

页数：69

共 20 条

[1]

数据挖掘与知识发现.[M].李雄飞;李军编著;.高等教育出版社.2003,

[2]

数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,

[3]

神经计算智能基础.[M].靳蕃编著;.西南交通大学出版社.2000,

[4]

神经网络应用技术.[M].胡守仁主编;沈清等编著;.国防科技大学出版社.1993,

[5]