基于词频的优化互信息文本特征选择方法

被引:13
作者
刘海峰
姚泽清
苏展
机构
[1] 解放军理工大学理学院
关键词
文本分类; 特征选择; 互信息; 特征频率; 特征降维; 类内分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。
引用
收藏
页码:179 / 182
页数:4
相关论文
共 9 条
[1]   一种基于互信息的改进文本特征选择 [J].
刘海峰 ;
陈琦 ;
张以皓 .
计算机工程与应用, 2012, 48 (25) :1-4+97
[2]   基于互信息的无监督特征选择 [J].
徐峻岭 ;
周毓明 ;
陈林 ;
徐宝文 .
计算机研究与发展, 2012, 49 (02) :372-382
[3]   一种基于反向文本频率互信息的文本挖掘算法研究 [J].
周戈 .
计算机应用研究, 2012, 29 (02) :487-489
[4]   基于互信息和粗糙集理论的特征选择 [J].
朱颢东 ;
李红婵 .
计算机工程, 2011, 37 (15) :181-183
[5]   一种基于信息增益的特征优化选择方法 [J].
刘庆和 ;
梁正友 .
计算机工程与应用 , 2011, (12) :130-132+136
[6]   文本分类中互信息特征选择方法的研究 [J].
范小丽 ;
刘晓霞 .
计算机工程与应用 , 2010, (34) :123-125
[7]   文本分类中基于核的非线性判别 [J].
刘海峰 ;
姚泽清 ;
刘守生 ;
王倩 .
应用科学学报, 2008, (06) :627-631
[8]   一种改进的基于条件互信息的特征选择算法 [J].
王卫玲 ;
刘培玉 ;
初建崇 .
计算机应用, 2007, (02) :433-435
[9]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859