文本分类特征权重改进算法

被引:24
作者
台德艺
王俊
机构
[1] 合肥学院机器视觉与智能控制技术重点实验室
关键词
向量空间模型; 文本分类; 特征权重; 特征分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。
引用
收藏
页码:197 / 199+202 +202
页数:4
相关论文
共 5 条
[1]   文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[2]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[3]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[4]   An improved TF-IDF approach for text classification [J].
Zhang Yun-tao ;
Gong Ling ;
Wang Yong-cheng .
Journal of Zhejiang University-SCIENCE A, 2005, 6 (1) :49-55
[5]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47