基于信息增益的文本特征选择方法

被引:31
作者
任永功
杨荣杰
尹明飞
马名威
机构
[1] 辽宁师范大学计算机与信息技术学院
基金
教育部留学回国人员科研启动基金;
关键词
特征选择; 文本分类; 信息增益值; 冗余特征; 不平衡数据集;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
引用
收藏
页码:127 / 130
页数:4
相关论文
共 4 条
[1]   文本分类中特征选择方法的比较与改进 [J].
单丽莉 ;
刘秉权 ;
孙承杰 .
哈尔滨工业大学学报, 2011, 43(S1) (S1) :319-324
[2]   应用特征项分布信息的信息增益改进方法研究 [J].
杨玉珍 ;
刘培玉 ;
朱振方 ;
邱烨 .
山东大学学报(理学版), 2009, 44 (11) :48-51
[3]   Using online linear classifiers to filter spam emails [J].
Wang, Bin ;
Jones, Gareth J. F. ;
Pan, Wenfeng .
PATTERN ANALYSIS AND APPLICATIONS, 2006, 9 (04) :339-351
[4]  
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)