一种CF树结合KNN图划分的文本聚类算法

被引:7
作者
仰孝富
齐建东
吉鹏飞
朱文飞
机构
[1] 北京林业大学信息学院
关键词
文本聚类; 向量空间模型; 传统的且非常高效的层次聚类算法(BIRCH); K最近邻;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。对比实验结果表明,该算法聚类有效性与稳定性都得到较大提高。
引用
收藏
页码:114 / 119
页数:6
相关论文
共 10 条
[1]
基于密度的改进BIRCH聚类算法 [J].
韦相 .
计算机工程与应用 , 2013, (10) :201-205
[2]
一种基于语义相似度的群智能文本聚类的新方法 [J].
陶红 ;
周永梅 ;
高尚 .
计算机应用研究, 2012, 29 (02) :482-484+532
[3]
一种改进的BIRCH聚类分析算法及其应用研究 [J].
周迎春 ;
骆嘉伟 .
湛江师范学院学报, 2009, 30 (03) :83-87
[4]
一种改进的BIRCH聚类算法 [J].
蒋盛益 ;
李霞 .
计算机应用, 2009, 29 (01) :293-296
[5]
一种改进的BIRCH分层聚类算法 [J].
赵玉艳 ;
郭景峰 ;
郑丽珍 ;
李晶 .
计算机科学, 2008, (03) :180-182+208
[6]
关于文本聚类有效性评价的研究 [J].
孙爱香 ;
杨鑫华 .
山东理工大学学报(自然科学版), 2007, (05) :65-68
[7]
多阈值BIRCH聚类算法及其应用 [J].
邵峰晶 ;
张斌 ;
于忠清 .
计算机工程与应用, 2004, (12) :174-176+195
[8]
A novel intrusion detection system based on hierarchical clustering and support vector machines.[J].Shi-Jinn Horng;Ming-Yang Su;Yuan-Hsin Chen;Tzong-Wann Kao;Rong-Jian Chen;Jui-Lin Lai;Citra Dwi Perkasa.Expert Systems With Applications.2010, 1
[9]
High-Speed Rough Clustering for Very Large Document Collections [J].
Kishida, Kazuaki .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2010, 61 (06) :1092-1104
[10]
A comparison of extrinsic clustering evaluation metrics based on formal constraints [J].
Amigo, Enrique ;
Gonzalo, Julio ;
Artiles, Javier ;
Verdejo, Felisa .
INFORMATION RETRIEVAL, 2009, 12 (04) :461-486