文本分类中特征权重算法改进研究附视频

被引:5
作者
李鹏鹏
范会敏
机构
[1] 西安工业大学计算机科学与工程学院
关键词
机器学习; 文本分类; 特征权重; TF-IDF;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。
引用
收藏
页码:66 / 70
页数:5
相关论文
共 15 条
[1]  
An empirical study of feature selection for text categorization based on term weightage. HOW B C,NARAYANAN K. Proceedings of the 2004 IEEE/W IC/ACM International Conference on Web Intelligence . 2004
[2]  
A Feature Weight Algorithm for Text Classification Based on Class Information[J] . Jun Sun,Cai Hui Song,Xiao Hua Xiao,Xia Ming Jin,Ji Heng Ni. &nbspAdvanced Materials Research . 2013 (756)
[3]  
中文文本分类中特征提取算法研究[D]. 彭时名.重庆大学 2006
[4]  
KNN文本分类中特征词权重算法的研究[D]. 赵小华.太原理工大学 2010
[5]  
基于机器学习的中文文本主题分类及情感分类研究[D]. 樊小超.南京理工大学 2014
[6]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[7]  
A new weighting algorithm forlinear classifier. Chen Keli,,Zong Chengqing. International Conference on Natural Language Processing and Knowledge Engineering . 2003
[8]  
A Text Classifier based on Linguistic Processing. Basili R,Moschitti A,Pazienza M T. International Joint Conference on Artificial Intelligence . 1999
[9]   一种面向文本分类的特征向量优化方法 [J].
郭正斌 ;
张仰森 ;
蒋玉茹 .
计算机应用研究, 2017, 34 (08) :2299-2302+2348
[10]   一种基于类别描述的TF-IDF特征选择方法的改进 [J].
徐冬冬 ;
吴韶波 .
现代图书情报技术 , 2015, (03) :39-48