文本分类中TF-IDF权重计算方法改进

被引:12
作者
隗中杰
机构
[1] 中国人民公安大学信息技术与网络安全学院
关键词
文本分类; 密度; TF-IDF; 特征权重; 分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。
引用
收藏
页码:39 / 42
页数:4
相关论文
共 17 条
[1]   基于改进的TF-IDF权重的短文本分类算法 [J].
杨彬 ;
韩庆文 ;
雷敏 ;
张亚鹏 ;
刘向国 ;
杨亚强 ;
马雪峰 .
重庆理工大学学报(自然科学), 2016, (12) :108-113
[2]   基于改进TF-IDF算法的文本分类方法研究 [J].
贺科达 ;
朱铮涛 ;
程昱 .
广东工业大学学报, 2016, 33 (05) :49-53
[3]   改进的TF-IDF中文本特征词加权算法研究 [J].
申剑博 .
软件导刊, 2015, 14 (04) :67-69
[4]   中文分词与词性标注研究 [J].
梁喜涛 ;
顾磊 .
计算机技术与发展, 2015, 25 (02) :175-180
[5]   文本分类中TF-IDF方法的改进研究 [J].
覃世安 ;
李法运 .
现代图书情报技术, 2013, (10) :27-30
[6]   改进TF-IDF算法的文本特征项权值计算方法 [J].
路永和 ;
李焰锋 .
图书情报工作 , 2013, (03) :90-95
[7]   支持向量机理论与算法研究综述 [J].
丁世飞 ;
齐丙娟 ;
谭红艳 .
电子科技大学学报 , 2011, (01) :2-10
[8]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[9]   基于SVM与KNN的中文文本分类比较实证研究 [J].
刘怀亮 ;
张治国 ;
马志辉 ;
孙蕾 .
情报理论与实践, 2008, 31 (06) :941-944
[10]   KNN和SVM算法在中文文本自动分类技术上的比较研究 [J].
马建斌 ;
李滢 ;
滕桂法 ;
王芳 ;
赵洋 .
河北农业大学学报, 2008, (03) :120-123