一种基于密度峰值发现的文本聚类算法

被引:9
作者
刘颖莹 [1 ]
刘培玉 [1 ]
王智昊 [1 ]
李情情 [1 ]
朱振方 [2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东交通学院信息科学与电气工程学院
关键词
密度; 文本聚类; 特征项; 向量距离;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。
引用
收藏
页码:65 / 70
页数:6
相关论文
共 13 条
[1]  
基于近邻传播和凝聚层次的文本聚类方法.[D].何晏成.哈尔滨工业大学.2010, 05
[2]  
Revised DBSCAN algorithm to cluster data with dense adjacent clusters.[J].Thanh N. Tran;Klaudia Drab;Michal Daszykowski.Chemometrics and Intelligent Laboratory Systems.2013,
[3]   A new hybrid method based on partitioning-based DBSCAN and ant clustering [J].
Jiang, Hua ;
Li, Jing ;
Yi, Shenghe ;
Wang, Xiangyang ;
Hu, Xin .
EXPERT SYSTEMS WITH APPLICATIONS, 2011, 38 (08) :9373-9381
[4]   APSCAN: A parameter free algorithm for clustering [J].
Chen, Xiaoming ;
Liu, Wanquan ;
Qiu, Huining ;
Lai, Jianhuang .
PATTERN RECOGNITION LETTERS, 2011, 32 (07) :973-986
[5]   Concept decompositions for large sparse text data using clustering [J].
Dhillon, IS ;
Modha, DS .
MACHINE LEARNING, 2001, 42 (1-2) :143-175
[6]   一种基于聚类的PU主动文本分类方法 [J].
刘露 ;
彭涛 ;
左万利 ;
戴耀康 .
软件学报, 2013, 24 (11) :2571-2583
[7]   一种结合主动学习的半监督文档聚类算法 [J].
赵卫中 ;
马慧芳 ;
李志清 ;
史忠植 .
软件学报, 2012, 23 (06) :1486-1499
[8]   基于改进DBSCAN算法的文本聚类 [J].
蔡岳 ;
袁津生 .
计算机工程, 2011, 37 (12) :50-52+55
[9]   一种改进的自适应蚁群聚类算法 [J].
梁君玲 ;
肖人岳 ;
王向东 .
计算机应用研究, 2011, 28 (04) :1263-1265
[10]   一种面向网络话题发现的增量文本聚类算法 [J].
殷风景 ;
肖卫东 ;
葛斌 ;
李芳芳 .
计算机应用研究, 2011, 28 (01) :54-57