用于文本分类的特征项权重算法改进

被引:9
作者
龚静
胡平霞
胡灿
机构
[1] 湖南环境生物职业技术学院信息技术系
关键词
文本分类; 特征项; 权重; 改进;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。
引用
收藏
页码:128 / 132
页数:5
相关论文
共 11 条
[1]   改进TF-IDF算法的文本特征项权值计算方法 [J].
路永和 ;
李焰锋 .
图书情报工作, 2013, 57 (03) :90-95
[2]   基于改进权重贝叶斯的维文文本分类模型 [J].
李艳姣 ;
蒋同海 .
计算机工程与设计, 2012, 33 (12) :4726-4730
[3]   基于特征权重与词间相关性的文本特征选择算法 [J].
任永功 ;
杨荣杰 ;
尹明飞 .
计算机应用与软件, 2012, 29 (09) :33-36
[4]   动态自适应特征权重的多类文本分类算法研究 [J].
裴颂文 ;
吴百锋 .
计算机应用研究, 2011, 28 (11) :4092-4096
[5]   文本分类中基于改进的词语权重算法的研究 [J].
侯艳钗 ;
沈西挺 .
微计算机信息, 2011, 27 (06) :211-213
[6]   文本分类特征权重改进算法 [J].
台德艺 ;
王俊 .
计算机工程, 2010, 36 (09) :197-199+202
[7]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[8]   文本层次分类中特征项权重算法的比较研究 [J].
谭金波 .
情报杂志 , 2007, (09) :87-88+91
[9]   自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618
[10]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220