基于优化的文档频和Beam搜索的特征选择方法

被引:1
作者
朱颢东 [1 ]
钟勇 [2 ]
机构
[1] 中国科学院成都计算机应用研究所
[2] 中国科学院研究生院
关键词
词频; 文档频; 粗糙集; Beam搜索; 属性约简;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法。首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法。该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该算法是有效的。
引用
收藏
页码:196 / 199
页数:4
相关论文
共 9 条
[1]   一种改进的文本特征选择算法 [J].
朱颢东 ;
蔡乐才 ;
刘忠英 .
现代电子技术, 2008, (08) :97-99+102
[2]   自动文本分类特征选择方法研究 [J].
张海龙 ;
王莲芝 .
计算机工程与设计, 2006, (20) :3838-3841
[3]   前向Beam搜索粗糙集属性约简算法 [J].
杨胜 ;
施鹏飞 .
计算机科学, 2006, (05) :200-204
[4]   基于信息量的一种属性约简算法 [J].
刘振华 ;
刘三阳 ;
王珏 .
西安电子科技大学学报, 2003, (06) :835-838
[5]   WWW上的信息挖掘技术及实现 [J].
邹涛 ;
王继成 ;
朱华宇 ;
金翔宇 ;
张福炎 .
计算机研究与发展, 1999, (08) :124-129
[6]  
智能计算[M]. 重庆大学出版社 , 曾黄麟著, 2004
[7]   A new method for measuring uncertainty and fuzziness in rough set theory [J].
Liang, JY ;
Chin, KS ;
Dang, CY ;
Yam, RCM .
INTERNATIONAL JOURNAL OF GENERAL SYSTEMS, 2002, 31 (04) :331-342
[8]   Bayesian Network Classifiers [J].
Nir Friedman ;
Dan Geiger ;
Moises Goldszmidt .
Machine Learning, 1997, 29 :131-163
[9]   ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356