优化的互信息特征选择方法

被引:8
作者
朱颢东 [1 ,2 ,3 ]
陈宁 [4 ]
李红婵 [1 ]
机构
[1] 郑州轻工业学院计算机与通信工程学院
[2] 中国科学院成都计算机应用研究所
[3] 中国科学院研究生院
[4] 河南移动郑州分公司网优中心
关键词
文本分类; 互信息; 特征选择; 词频; 文档频;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信息方法。该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频。实验结果表明该优化的互信息方法性能良好。
引用
收藏
页码:122 / 124
页数:3
相关论文
共 4 条
[1]   基于粗糙集和灰色关联度的综合性特征选择 [J].
朱颢东 ;
钟勇 .
计算机工程与应用 , 2009, (35) :6-9+13
[2]   Feature selection for high-dimensional data [J].
Destrero A. ;
Mosci S. ;
De Mol C. ;
Verri A. ;
Odone F. .
Computational Management Science, 2009, 6 (1) :25-40
[3]  
Stability of feature selection algorithms: a study on high-dimensional spaces[J] . Alexandros Kalousis,Julien Prados,Melanie Hilario.Knowledge and Information Systems . 2007 (1)
[4]   Higher order feature selection for text classification [J].
Bakus, J ;
Kamel, MS .
KNOWLEDGE AND INFORMATION SYSTEMS, 2006, 9 (04) :468-491