一种基于类别描述的TF-IDF特征选择方法的改进

被引:12
作者
徐冬冬
吴韶波
机构
[1] 北京信息科技大学信息与通信工程学院
关键词
文本分类; 特征选择; TF-IDF; 类别描述;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】对特征权重公式进行改进,提高文本分类精度。【方法】引入类内、类间信息并修正TF-IDF权重因子,得到基于类别描述的TF-IDF-CD方法。将其在偏斜文本集和均衡文本集下分别与NB、KNN等分类方法结合进行文本分类实验,比较其与TF-IDF、CTD等方法的分类精确度。【结果】TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同文本集以及不同分类方法下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。与CTD相比,TF-IDF-CD与NB、SVM及DT结合后的平均分类精度均有1%-13%的提高。而在非均衡文本集下,TF-IDF-CD与KNN结合时其性能比CTD与KNN结合时低2%。【局限】TF-IDF-CD与对文本集不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。【结论】实验结果表明,TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。
引用
收藏
页码:39 / 48
页数:10
相关论文
共 9 条
[1]   文本分类中TF-IDF方法的改进研究 [J].
覃世安 ;
李法运 .
现代图书情报技术, 2013, (10) :27-30
[2]   一种基于类别分布信息的文本特征选择模型 [J].
刘海峰 ;
于利军 ;
刘守生 .
图书情报工作, 2013, (15) :137-141
[3]   一种基于权重的文本特征选择方法 [J].
雷军程 ;
黄同成 ;
柳小文 .
计算机科学, 2012, 39 (07) :250-252+275
[4]   基于信息增益与信息熵的TFIDF算法 [J].
李学明 ;
李海瑞 ;
薛亮 ;
何光军 .
计算机工程, 2012, 38 (08) :37-40
[5]   基于TFIDF文本特征加权方法的改进研究 [J].
张保富 ;
施化吉 ;
马素琴 .
计算机应用与软件, 2011, 28 (02) :17-20
[6]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[7]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用, 2007, (35) :156-158+171
[8]  
Text Categorization with Support Vector Machines. How to Represent Texts in Input Space?[J] . Machine Learning . 2002 (1)
[9]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)