基于类别相关性和交叉熵的特征选择方法

被引:21
作者
朱颢东 [1 ,2 ]
钟勇 [1 ,2 ]
机构
[1] 中国科学院成都计算机应用研究所
[2] 中国科学院研究生院
关键词
文本分类; 特征选择; 类别相关性; 交叉熵; 属性约简;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.
引用
收藏
页码:61 / 65
页数:5
相关论文
共 12 条
[1]
A new method for measuring uncertainty and fuzziness in rough set theory [J].
Liang, JY ;
Chin, KS ;
Dang, CY ;
Yam, RCM .
INTERNATIONAL JOURNAL OF GENERAL SYSTEMS, 2002, 31 (04) :331-342
[2]
一种新的基于多启发式的特征选择算法 [J].
朱颢东 ;
钟勇 .
计算机应用, 2009, 29 (03) :849-851
[3]
文档分类之特征选择方法的实验比较 [J].
张建兵 ;
戴新宇 ;
陈家骏 .
广西师范大学学报(自然科学版), 2008, (03) :181-184
[4]
文本分类中特征选择方法的比较和改进 [J].
伍建军 ;
康耀红 .
郑州大学学报(理学版), 2007, (02) :110-113
[5]
自动文本分类特征选择方法研究 [J].
张海龙 ;
王莲芝 .
计算机工程与设计, 2006, (20) :3838-3841
[6]
基于对称交叉熵的属性约简算法 [J].
周如旗 ;
陈文伟 .
计算机辅助工程, 2006, (03) :51-53+58
[7]
基于粗糙集信息观的决策表属性约简方法 [J].
朱六兵 ;
唐德波 ;
杨斌 .
信息技术, 2006, (01) :46-49
[8]
基于潜在语义的多类文本分类模型研究 [J].
叶浩 ;
王明文 ;
曾雪强 .
清华大学学报(自然科学版), 2005, (自然科学版) :1818-1822
[9]
中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[10]
信息理论基础.[M].周荫清主编;.北京航空航天大学出版社.2006,