面向大数据集的共享近邻聚类研究

被引:5
作者
潘章明
陈尹立
机构
[1] 广东金融学院计算机科学与技术系
关键词
共享近邻; 分治法; 大数据集; 聚类分析;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
共享近邻(SNN)相似度能有效克服由高维和多密度等因素引起的聚类有效性问题,但计算效率不高.基于分治策略,提出一种改进的共享近邻聚类算法(DC-SNN).采用软划分策略将数据集分割为多个小规模子集,降低了计算SNN相似矩阵时需要搜索的数据点数量,同时,也避免了子集分割边界对数据点K近邻产生的不利影响.根据在子集中定义的核心数据点和扩展数据点,给出了子集中SNN相似矩阵的计算方法和合并策略,从而确保了以子集SNN相似矩阵表示整个数据集SNN相似矩阵的有效性.实验结果表明,DC-SNN算法能够在确保聚类精度不变的情况下,显著提高共享近邻聚类的效率.
引用
收藏
页码:50 / 54
页数:5
相关论文
共 3 条
[1]   基于共享近邻的自适应谱聚类 [J].
刘馨月 ;
李静伟 ;
于红 ;
尤全增 ;
林鸿飞 .
小型微型计算机系统, 2011, 32 (09) :1876-1880
[2]   密度敏感的多智能体进化聚类算法 [J].
潘晓英 ;
刘芳 ;
焦李成 .
软件学报, 2010, 21 (10) :2420-2431
[3]  
Data clustering: 50 years beyond K-means [J] . Anil K. Jain.&nbsp&nbspPattern Recognition Letters . 2009 (8)