基于信息增益特征关联树的文本特征选择算法

被引:9
作者
任永功
杨雪
杨荣杰
胡志冬
机构
[1] 辽宁师范大学计算机与信息技术学院
关键词
特征选择; 特征关联树; 信息增益值; 不平衡数据集; 离散度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
引用
收藏
页码:252 / 256
页数:5
相关论文
共 8 条
[1]   基于相关性和冗余度的联合特征选择方法 [J].
周城 ;
葛斌 ;
唐九阳 ;
肖卫东 .
计算机科学, 2012, 39 (04) :181-184
[2]   一种基于信息增益的特征优化选择方法 [J].
刘庆和 ;
梁正友 .
计算机工程与应用 , 2011, (12) :130-132+136
[3]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89
[4]   一种近似Markov Blanket最优特征选择算法 [J].
崔自峰 ;
徐宝文 ;
张卫丰 ;
徐峻岭 .
计算机学报, 2007, (12) :2074-2081
[5]  
文本分类中一种基于选择的二次特征降维方法[J]. 刘海峰,王元元,姚泽清,陈琦.情报学报. 2009 (01)
[6]  
Neighborhood classifiers[J] . Qinghua Hu,Daren Yu,Zongxia Xie.Expert Systems With Applications . 2006 (2)
[7]  
Feature selection, perceptron learning, and a usability case study for text categorization[J] . Hwee Tou Ng,Wei Boon Goh,Kok Leong Low.ACM SIGIR Forum . 1997 (SI)
[8]  
Lecture Notes in Computer Science[C]. The First International Conference on Web-Age Information Management,1600