一种基于互信息的改进文本特征选择

被引:15
作者
刘海峰 [1 ]
陈琦 [1 ]
张以皓 [2 ]
机构
[1] 解放军理工大学理学院
[2] 解放军理工大学指挥自动化学院
关键词
文本分类; 特征选择; 互信息; 特征降维;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。
引用
收藏
页码:1 / 4+97 +97
页数:5
相关论文
共 5 条
[1]   文本分类中互信息特征选择方法的研究 [J].
范小丽 ;
刘晓霞 .
计算机工程与应用 , 2010, (34) :123-125
[2]   优化的互信息特征选择方法 [J].
朱颢东 ;
陈宁 ;
李红婵 .
计算机工程与应用, 2010, 46 (26) :122-124
[3]   文本自动分类关键技术研究 [J].
张冬慧 ;
孙波 ;
徐照财 ;
程显毅 .
微计算机信息, 2008, (06) :197-199
[4]  
Web概念挖掘中标引源加权方案初探[J]. 侯汉清,章成志,郑红.情报学报. 2005 (01)
[5]  
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)