一种改进的基于条件互信息的特征选择算法

被引:25
作者
王卫玲 [1 ]
刘培玉 [1 ]
初建崇 [2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 海军航空工程学院训练部
关键词
特征选择; 文本分类; 条件互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视,这导致了特征之间预测能力的相互削弱,无法选出最有效的特征。提出了一种新的用于文本分类的特征选择算法(CMIM),它可以帮助选出区分能力强、弱相关的特征。经实验验证,CMIM比传统的特征选择算法具有更好的性能。
引用
收藏
页码:433 / 435
页数:3
相关论文
共 4 条
[1]   最优特征子集选择问题 [J].
陈彬 ;
洪家荣 ;
王亚东 .
计算机学报, 1997, (02) :133-138
[2]  
应用信息论基础[M]. 清华大学出版社 , 朱雪龙编著, 2001
[3]  
信息理论基础[M]. 清华大学出版社 , 常迥[编], 1993
[4]   A comparative study on text representation schemes in text categorization [J].
Fengxi Song ;
Shuhai Liu ;
Jingyu Yang .
Pattern Analysis and Applications, 2005, 8 :199-209