共 3 条
文本聚类中的改进特征权重算法
被引:2
作者:
褚蕾蕾
[1
]
常文波
[2
]
李秦
[1
]
机构:
[1] 西安交通大学数学与统计学院
[2] 太原卫星发射中心测量控制站
来源:
关键词:
文本聚类;
特征选择;
权重;
k均值聚类;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.
引用
收藏
页码:523 / 528
页数:6
相关论文