基于特征权重与词间相关性的文本特征选择算法

被引:3
作者
任永功
杨荣杰
尹明飞
机构
[1] 辽宁师范大学计算机与信息技术学院
基金
教育部留学回国人员科研启动基金;
关键词
ReliefF算法; mRMR-ReliefF算法; 特征选择; 差异函数; 词间相关性; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。
引用
收藏
页码:33 / 36
页数:4
相关论文
共 10 条
[1]   基于改进的ReliefF算法的神经网络集成分类模型 [J].
朱远枫 ;
章晶 ;
史娜 .
电脑知识与技术, 2009, 5 (07) :1699-1700
[2]  
"Automatic Web Pages Categorization with ReliefF and Hidden Naive Bayes,". J.Xin,L.Rongyan,S.Xian,B.Rongfang. Proceedings of the 2007 ACM symposium on Applied computing . 2007
[3]  
Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy. Peng H C,Long F H,Ding C. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2005
[4]  
Theoretical and Empirical Analysis of ReliefF and RReliefF[J] .  &nbspMachine Learning . 2003 (1)
[5]  
FS_SFS:A novel feature selection method for support vector machines. Liu Y,Zheng Y F. Pattern Recognition . 2006
[6]  
基于增量聚类和ReliefF的特征选择方法[D]. 童忆莹.西南大学 2011
[7]   基于Relief的组合式特征选择 [J].
张丽新 ;
王家廞 ;
赵雁南 ;
杨泽红 .
复旦学报(自然科学版), 2004, (05) :893-898
[8]  
Analysis and extensions of relief. Kononenko I Estimation. Pro-ceedings of the 1994 European Conference on Machine Learning . 1997
[9]  
A practical approach to feature selec-tion machine learning. Kenji K,Rendell L A,Rendell A. Proceedings of ICML’’92 . 1992
[10]   一种文本特征选择方法的研究 [J].
陈素萍 ;
谢丽聪 .
计算机技术与发展, 2009, 19 (02) :112-115