一种基于词频信息的改进CHI文本特征选择

被引:21
作者
刘海峰
苏展
刘守生
机构
[1] 解放军理工大学理学院
关键词
文本分类; 特征选择; χ2统计; 类内分布; 类间分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
CHI是一种常用的文本特征选择方法。针对该模型的不足之处,以特征项的频数为依据,分别从特征项的类内分布、类间分布以及类内不同文本之间分布等角度,对CHI模型进行逐步优化,使得特征项频数信息得到了有效利用。提出了一种基于词频信息的改进CHI模型。随后的文本分类试验证明了提出优化CHI模型的有效性。
引用
收藏
页码:110 / 114
页数:5
相关论文
共 9 条
[1]   集合CHI与IG的特征选择方法 [J].
王光 ;
邱云飞 ;
史庆伟 .
计算机应用研究, 2012, 29 (07) :2454-2456
[2]   基于方差的CHI特征选择方法 [J].
邱云飞 ;
王威 ;
刘大有 ;
邵良杉 .
计算机应用研究, 2012, 29 (04) :1304-1306
[3]   基于互信息的无监督特征选择 [J].
徐峻岭 ;
周毓明 ;
陈林 ;
徐宝文 .
计算机研究与发展, 2012, 49 (02) :372-382
[4]   一种基于信息增益的特征优化选择方法 [J].
刘庆和 ;
梁正友 .
计算机工程与应用 , 2011, (12) :130-132+136
[5]   文本分类中改进型CHI特征选择方法的研究 [J].
裴英博 ;
刘晓霞 .
计算机工程与应用, 2011, 47 (04) :128-130+194
[6]   改进的χ统计文本特征选择方法 [J].
肖婷 ;
唐雁 .
计算机工程与应用 , 2009, (14) :136-137+140
[7]   基于χ2统计的文本分类特征选择方法的研究 [J].
熊忠阳 ;
张鹏招 ;
张玉芳 .
计算机应用, 2008, (02) :513-514+518
[8]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[9]   AUTOMATED LEARNING OF DECISION RULES FOR TEXT CATEGORIZATION [J].
APTE, C ;
DAMERAU, F ;
WEISS, SM .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1994, 12 (03) :233-251