文本聚类中的改进特征权重算法

被引:2
作者
褚蕾蕾 [1 ]
常文波 [2 ]
李秦 [1 ]
机构
[1] 西安交通大学数学与统计学院
[2] 太原卫星发射中心测量控制站
关键词
文本聚类; 特征选择; 权重; k均值聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.
引用
收藏
页码:523 / 528
页数:6
相关论文
共 3 条
[1]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[2]   基于向量空间模型的文本检索系统 [J].
王晓黎 ;
王文杰 .
微电子学与计算机, 2006, (06) :188-190
[3]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210