基于相对贡献率的特征选择方法

被引:7
作者
杨杰明
王静
曲朝阳
机构
[1] 东北电力大学信息工程学院
关键词
特征选择; 文本分类; 相对贡献率; 特征频度;
D O I
10.19718/j.issn.1005-2992.2014.04.013
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。
引用
收藏
页码:62 / 68
页数:7
相关论文
共 9 条
[1]
基于主成分分析和KNN混合方法的文本分类研究 [J].
郭新辰 ;
李成龙 ;
樊秀玲 .
东北电力大学学报, 2013, 33 (06) :60-63
[2]
A new feature selection algorithm based on binomial hypothesis testing for spam filtering [J].
Yang, Jieming ;
Liu, Yuanning ;
Liu, Zhen ;
Zhu, Xiaodong ;
Zhang, Xiaoxu .
KNOWLEDGE-BASED SYSTEMS, 2011, 24 (06) :904-914
[3]
Feature selection with a measure of deviations from Poisson in text categorization.[J].Hiroshi Ogura;Hiromi Amano;Masato Kondo.Expert Systems With Applications.2008, 3
[4]
A novel feature selection algorithm for text categorization.[J].Wenqian Shang;Houkuan Huang;Haibin Zhu;Yongmin Lin;Youli Qu;Zhihai Wang.Expert Systems With Applications.2006, 1
[5]
A preprocess algorithm of filtering irrelevant information based on the minimum class difference [J].
Chen, Zhiping ;
Lu, Kevin .
KNOWLEDGE-BASED SYSTEMS, 2006, 19 (06) :422-429
[6]
Best terms: an efficient feature-selection algorithm for text categorization [J].
Fragoudis, D ;
Meretakis, D ;
Likothanassis, S .
KNOWLEDGE AND INFORMATION SYSTEMS, 2005, 8 (01) :16-33
[7]
An evaluation of statistical spam filtering techniques.[J].Le Zhang;Jingbo Zhu;Tianshun Yao.ACM Transactions on Asian Language Information Processing (TALIP).2004, 4
[8]
Selection of relevant features and examples in machine learning.[J].Avrim L. Blum;Pat Langley.Artificial Intelligence.1997, 1
[9]
Approximations of the critical region of the fbietkan statistic.[J].Ronald L. Iman;James M. Davenport.Communications in Statistics - Theory and Methods.1980, 6