应用特征项分布信息的信息增益改进方法研究

被引:14
作者
杨玉珍
刘培玉
朱振方
邱烨
机构
[1] 山东师范大学信息科学与工程学院
关键词
特征选择; 信息增益; 类内离散度; 类间离散度;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
在特征项分布不平衡的情况下,传统信息增益算法的分类性能会急剧下降,针对此缺陷提出了一种利用特征项分布信息来改进信息增益公式的计算方法。通过计算特征项分布信息来判定特征项是否存在不平衡性,并利用此信息来平衡特征项不出现时对分类精度的影响。通过实验验证,改进后的计算方法整体上比传统的信息增益算法具有更好的性能。
引用
收藏
页码:48 / 51
页数:4
相关论文
共 6 条
[1]  
中文文本信息处理的原理与应用[M]. 清华大学出版社 , 苗夺谦, 2007
[2]  
高性能特征选择及文本分类算法研究[D]. 孙春明.华北电力大学(北京) 2007
[3]   基于相对文档频的平衡信息增益降维方法 [J].
任克强 ;
张国萍 ;
赵光甫 .
江西理工大学学报, 2008, (05) :68-71
[4]   基于特征信息增益权重的文本分类算法 [J].
李文斌 ;
刘椿年 ;
陈嶷瑛 .
北京工业大学学报, 2006, (05) :456-460
[5]  
Acomparative study onfeature selectionintext categorization[C/OL]. YANGYiming. Proceedings of the Fourteenth Interna-tional Conference on Machine Learning . 1997
[6]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220