基于主题子空间的文本模糊C均值聚类方法

被引：2

作者：

吉翔华 ^{[1
]}

陈超 ^{[2
]}

邵正荣 ^{[2
]}

俞能海 ^{[1
]}

机构：

[1] 中国科学技术大学电子工程与信息科学系多媒体计算与通信教育部-微软重点实验室

[2] 中国科学技术大学图书馆

来源：

小型微型计算机系统 | 2007年 / 12期

关键词：

TS2FCM; 主题子空间; 模糊C均值聚类; 文本聚类;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.

引用

页码：2225 / 2228

页数：4