学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
数据挖掘中聚类方法的研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
王莉
机构
:
[1]
天津大学
关键词
:
数据挖掘;
聚类;
SOFM;
密度方法;
网格方法;
层次方法;
D O I
:
暂无
年度学位
:
2004
学位类型
:
博士
导师
:
王正欧;
摘要
:
面对大规模的、高维的数据,如何建立有效、可扩展的的聚类数据挖掘算法是数据挖掘领域的一个研究热点。围绕以上问题,本文对聚类算法进行了深入研究,主要包括以下几个方面的内容: 通过对Kohonen自组织映射模型(SOFM)及其主要改进模型的分析,提出一种树形动态生长自组织模型。其网络结构在训练中动态生成,克服了SOFM网络结构固定化的限制;所生成的网络结点数目远远低于传统的SOFM及动态增长自组织映射模型(GSOM),所需训练周期少,训练效率高;用扩展因子(SF)来控制网络的生长速度,可以得到精度不同的聚类结果;由用户选取不同的SF值和输入样本集实现数据集的层次聚类。 针对基于密度、基于网格聚类方法的缺陷,提出一种基于网格、密度及距离的综合聚类方法。通过仿真实验并与现有聚类算法的比较,该方法能识别任意形状、大小、不同密度的类;能有效过滤噪声数据;参数设置简单,无需预先给定聚类个数;具有近似线性时间复杂度,执行效率高,适合大规模数据的聚类问题。 针对现有层次聚类方法的缺点,提出一种层次聚类方法。该方法首先采用划分方法将数据分成原子簇,然后以这些原子簇为基础,实行自底向上的层次聚类得到最终的聚类结果。其可识别任意形状、大小的类,过滤“噪声”数据;具有近似线性时间复杂度,算法执行效率高,适合大规模数据的聚类问题。 将代表点思想与神经网络技术相结合,提出一种基于代表点、密度和神经网络的综合聚类方法。其首先使用代表点来描述数据空间的几何特征,然后将代表点的位置与密度信息同时作为神经网络的输入,通过网络训练得到聚类结果。该方法即继承了代表点方法聚类能力强的特点,而且由于使用了可视化SOFM(ViSOM)网络模型,聚类结果的可视性效果好。
引用
收藏
页数:109
共 81 条
[1]
分类数据挖掘中若干基本问题的研究
[D].
李仁璞
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学
天津大学
李仁璞
.
天津大学,
2003
[2]
一种基于参考点和密度的快速聚类算法
[J].
马帅
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
马帅
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
王腾蛟
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
杨冬青
;
高军
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
高军
.
软件学报,
2003,
(06)
:1089
-1095
[3]
基于免疫规划的K-means聚类算法
[J].
论文数:
引用数:
h-index:
机构:
行小帅
;
潘进
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
潘进
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
焦李成
.
计算机学报,
2003,
(05)
:605
-610
[4]
TGSOM:一种用于数据聚类的动态自组织映射神经网络
[J].
论文数:
引用数:
h-index:
机构:
王莉
;
论文数:
引用数:
h-index:
机构:
王正欧
.
电子与信息学报,
2003,
(03)
:313
-319
[5]
基于遗传算法的K均值聚类分析
[J].
王敞
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院,南开大学信息技术科学学院,南开大学信息技术科学学院天津,天津,天津
王敞
;
论文数:
引用数:
h-index:
机构:
陈增强
;
论文数:
引用数:
h-index:
机构:
袁著祉
.
计算机科学,
2003,
(02)
:163
-164
[6]
从多角度分析现有聚类算法(英文)
[J].
钱卫宁
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系,复旦大学智能信息处理开放实验室上海,上海
钱卫宁
;
论文数:
引用数:
h-index:
机构:
周傲英
.
软件学报,
2002,
(08)
:1382
-1394
[7]
聚类/分类中的粒度原理
[J].
卜东波
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
白硕
;
李国杰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李国杰
.
计算机学报,
2002,
(08)
:810
-816
[8]
FCM-VKNN聚类算法的研究
[J].
论文数:
引用数:
h-index:
机构:
张洪刚
;
论文数:
引用数:
h-index:
机构:
刘刚
;
论文数:
引用数:
h-index:
机构:
郭军
.
自动化学报,
2002,
(04)
:631
-636
[9]
数据挖掘中的数据分类算法综述
[J].
论文数:
引用数:
h-index:
机构:
刘红岩
;
论文数:
引用数:
h-index:
机构:
陈剑
;
论文数:
引用数:
h-index:
机构:
陈国青
.
清华大学学报(自然科学版),
2002,
(06)
:727
-730
[10]
一种新的聚类算法:等密度线算法
[J].
赵艳厂
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院,北京邮电大学电子工程学院,北京邮电大学电子工程学院北京,北京,北京
赵艳厂
;
谢帆
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院,北京邮电大学电子工程学院,北京邮电大学电子工程学院北京,北京,北京
谢帆
;
论文数:
引用数:
h-index:
机构:
宋俊德
.
北京邮电大学学报,
2002,
(02)
:8
-13
←
1
2
3
4
5
6
7
8
9
→
共 81 条
[1]
分类数据挖掘中若干基本问题的研究
[D].
李仁璞
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学
天津大学
李仁璞
.
天津大学,
2003
[2]
一种基于参考点和密度的快速聚类算法
[J].
马帅
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
马帅
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
王腾蛟
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
杨冬青
;
高军
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
高军
.
软件学报,
2003,
(06)
:1089
-1095
[3]
基于免疫规划的K-means聚类算法
[J].
论文数:
引用数:
h-index:
机构:
行小帅
;
潘进
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
潘进
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
焦李成
.
计算机学报,
2003,
(05)
:605
-610
[4]
TGSOM:一种用于数据聚类的动态自组织映射神经网络
[J].
论文数:
引用数:
h-index:
机构:
王莉
;
论文数:
引用数:
h-index:
机构:
王正欧
.
电子与信息学报,
2003,
(03)
:313
-319
[5]
基于遗传算法的K均值聚类分析
[J].
王敞
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院,南开大学信息技术科学学院,南开大学信息技术科学学院天津,天津,天津
王敞
;
论文数:
引用数:
h-index:
机构:
陈增强
;
论文数:
引用数:
h-index:
机构:
袁著祉
.
计算机科学,
2003,
(02)
:163
-164
[6]
从多角度分析现有聚类算法(英文)
[J].
钱卫宁
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系,复旦大学智能信息处理开放实验室上海,上海
钱卫宁
;
论文数:
引用数:
h-index:
机构:
周傲英
.
软件学报,
2002,
(08)
:1382
-1394
[7]
聚类/分类中的粒度原理
[J].
卜东波
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
白硕
;
李国杰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李国杰
.
计算机学报,
2002,
(08)
:810
-816
[8]
FCM-VKNN聚类算法的研究
[J].
论文数:
引用数:
h-index:
机构:
张洪刚
;
论文数:
引用数:
h-index:
机构:
刘刚
;
论文数:
引用数:
h-index:
机构:
郭军
.
自动化学报,
2002,
(04)
:631
-636
[9]
数据挖掘中的数据分类算法综述
[J].
论文数:
引用数:
h-index:
机构:
刘红岩
;
论文数:
引用数:
h-index:
机构:
陈剑
;
论文数:
引用数:
h-index:
机构:
陈国青
.
清华大学学报(自然科学版),
2002,
(06)
:727
-730
[10]
一种新的聚类算法:等密度线算法
[J].
赵艳厂
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院,北京邮电大学电子工程学院,北京邮电大学电子工程学院北京,北京,北京
赵艳厂
;
谢帆
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院,北京邮电大学电子工程学院,北京邮电大学电子工程学院北京,北京,北京
谢帆
;
论文数:
引用数:
h-index:
机构:
宋俊德
.
北京邮电大学学报,
2002,
(02)
:8
-13
←
1
2
3
4
5
6
7
8
9
→