一种文本特征选择方法的研究

被引:6
作者
陈素萍 [1 ,2 ]
谢丽聪 [1 ]
机构
[1] 福州大学数学与计算机科学学院
[2] 福建师范大学协和学院
关键词
文本特征; 文本分类; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集。而特征选择是有效降低特征向量维数的一种方法。目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果。为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法。实验表明,该特征选择方法有助于提高分类性能。
引用
收藏
页码:112 / 115
页数:4
相关论文
共 6 条
[1]  
On the specification of term values in automatic indexing. G Salton,A Wong,CS Yang. Journal of Documentation . 1973
[2]  
Lexical Analysis and Stoplists. Fox C. Information Retrieval:Data Structure&Algorithms . 1992
[3]  
A Comparative Study on Feature Selection in Text Categorization. YANG Yi-ming,PEDERSON J O. Proceedings of the14th Inter-national Conference on Machine learning . 1997
[4]  
Minimum redundancy feature selection from microarray gene expression data. Ding C,Peng H C. Proceeding ofSecond IEEE Computational Systems Bioinformatics Conference . 2003
[5]  
Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. Peng,HC,Long,FH,Ding,C. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2005
[6]  
Stemming Algorithms. Frakes,WB,Frakes,WB,Baeza-Yates,R. Information Retrieval, Data Structures & Algorithms . 1992