基于特征贡献度的特征选择方法在文本分类中应用

被引:10
作者
孟佳娜 [1 ,2 ]
林鸿飞 [1 ]
李彦鹏 [1 ]
机构
[1] 大连理工大学计算机科学与工程系
[2] 大连民族学院理学院
基金
高等学校博士学科点专项科研基金;
关键词
文本分类; 特征选择; 向量空间模型; 特征贡献度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.
引用
收藏
页码:611 / 615
页数:5
相关论文
共 2 条
[1]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90