适用于大规模文本处理的动态密度聚类算法

被引:11
作者
李霞 [1 ,2 ]
蒋盛益 [2 ]
张倩生 [2 ]
朱靖 [2 ]
机构
[1] 广东外语外贸大学外国语学及应用语言学研究中心
[2] 广东外语外贸大学思科信息学院
关键词
文本挖掘; 聚类; 海量数据; 动态密度;
D O I
10.13209/j.0479-8023.2013.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。
引用
收藏
页码:133 / 139
页数:7
相关论文
共 2 条
[1]  
Squeezer: An efficient algorithm for clustering categorical data[J] . Zengyou He,Xiaofei Xu,Shengchun Deng.Journal of Computer Science and Technology . 2002 (5)
[2]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)