一种基于信息增益的特征选择方法

被引:10
作者
黄志艳
机构
[1] 泰山职业技术学院
关键词
特征选择; 文本分类; 信息增益;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。
引用
收藏
页码:252 / 256
页数:5
相关论文
共 6 条
[1]   文本分类中特征选择方法的比较与改进 [J].
单丽莉 ;
刘秉权 ;
孙承杰 .
哈尔滨工业大学学报, 2011, 43(S1) (S1) :319-324
[2]  
A comparative study on feature selection in text categorization. Yiming Yang,Jan O Pedersen. Proceedings of the Fourteenth International Conference on Machine Learning(ICM’97) . 1997
[3]   应用特征项分布信息的信息增益改进方法研究 [J].
杨玉珍 ;
刘培玉 ;
朱振方 ;
邱烨 .
山东大学学报(理学版), 2009, 44 (11) :48-51
[4]   文本分类中特征选择方法的分析和改进 [J].
许朝阳 .
计算机与现代化, 2010, (04) :37-39
[5]   一种基于信息增益的特征优化选择方法 [J].
刘庆和 ;
梁正友 .
计算机工程与应用 , 2011, (12) :130-132+136
[6]  
Feature Selection for Unbalanced Class Distribution and Naive Bayes. Mladenic D,Grobelnik M. Proceedings of the Sixteenth International Conference on Machine Learning . 1999