特征加权距离与软子空间学习相结合的文本聚类新方法

被引:22
作者
王骏
王士同
邓赵红
机构
[1] 江南大学数字媒体学院
关键词
模糊聚类; 文本聚类; 软子空间; 特征加权距离; 全局收敛性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本数据维数高、数据分布稀疏、不同类别的特征相互重叠,这为聚类分析提出了挑战.针对文本数据的这一特点,将特征加权技术与软子空间相结合,基于模糊聚类的算法框架,提出了一种适用于高维文本数据的软子空间模糊聚类新方法.首先,基于加权范数理论,提出了新的特征加权距离计算方法.接着,将其与软子空间学习的理论框架相结合,提出了面向模糊聚类的新的目标学习准则.通过向约束条件中引入熵指数r,从而扩展了模糊指数m的取值范围,并给出了物理解释.基于Zangwill收敛定理对算法的全局收敛性给出理论证明.实验表明,文中算法可以使软子空间学习和聚类分析同时进行,其性能比现有的相关算法有了较大的提高.
引用
收藏
页码:1655 / 1665
页数:11
相关论文
共 7 条
[1]   基于属性权重的Fuzzy C Mean算法 [J].
王丽娟 ;
关守义 ;
王晓龙 ;
王熙照 .
计算机学报, 2006, (10) :1797-1803
[2]   基于特征加权的模糊聚类新算法 [J].
李洁 ;
高新波 ;
焦李成 .
电子学报, 2006, (01) :89-92
[3]   论模糊C均值算法的模糊指标 [J].
于剑 .
计算机学报, 2003, (08) :968-973
[4]   Feature weighting in k-means clustering [J].
Modha, DS ;
Spangler, WS .
MACHINE LEARNING, 2003, 52 (03) :217-237
[5]   A PRELIMINARY-STUDY OF OPTIMAL VARIABLE WEIGHTING IN K-MEANS CLUSTERING [J].
GREEN, PE ;
CARMONE, FJ ;
KIM, J .
JOURNAL OF CLASSIFICATION, 1990, 7 (02) :271-285
[6]  
Objective criteria for the evaluation of clustering methods .2 Rand WM. Journal of the American Statistical Association . 1971
[7]  
Fuzzy k-means with variable weighting in high dimensional data analysis .2 Wang Qiang,Ye Yunming,Huang Zhexue. Proceedings-The 9th International Conference on Web-Age Information Management . 2008