基于主题子空间的文本模糊C均值聚类方法

被引:2
作者
吉翔华 [1 ]
陈超 [2 ]
邵正荣 [2 ]
俞能海 [1 ]
机构
[1] 中国科学技术大学电子工程与信息科学系多媒体计算与通信教育部-微软重点实验室
[2] 中国科学技术大学图书馆
关键词
TS2FCM; 主题子空间; 模糊C均值聚类; 文本聚类;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
引用
收藏
页码:2225 / 2228
页数:4
相关论文
共 4 条
[1]   FCM算法中隶属度的新解释及其应用 [J].
范九伦 ;
吴成茂 .
电子学报, 2004, (02) :350-352
[2]   内容词-共引聚类分析及其在科学结构研究中的应用 [J].
柴省三 .
情报学报, 1997, (01) :68-73
[3]   模糊C均值聚类算法的一种初始化方法 [J].
薛忠,谢维信 .
系统工程与电子技术, 1995, (11) :64-69
[4]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)