基于互信息最大化的特征选择算法及应用

被引:34
作者
唐亮 [1 ]
段建国 [2 ]
许洪波 [2 ]
梁玲 [1 ]
机构
[1] 解放军信息工程大学信息工程学院
[2] 中国科学院计算技术研究所网络科学技术部
关键词
文本分类; 特征选择; 交叉熵; 信息增益; 互信息最大化;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。
引用
收藏
页码:130 / 133
页数:4
相关论文
共 2 条
[1]  
谭松波语料库. http://lcc.software.ict.ac.cn/-tansongbo/cor-pus1.php .
[2]  
A comparative study on feature selec-tion in text categorization. Yang Yiming,Pedersen J O. Proc of the14th International Con-ference on Machine Learning ICML97 . 1997