文档分类之特征选择方法的实验比较

被引:9
作者
张建兵
戴新宇
陈家骏
机构
[1] 南京大学软件新技术国家重点实验室
关键词
文本分类; 特征选择; 信息增益; Relief; 随机森林; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一。其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用。然而,该分类方法的性能很大程度上取决于文本的特征空间表示。在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析。实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理。
引用
收藏
页码:181 / 184
页数:4
相关论文
共 4 条
[1]
文本分类中特征选择方法的比较和改进 [J].
伍建军 ;
康耀红 .
郑州大学学报(理学版), 2007, (02) :110-113
[2]
用于文本挖掘的特征选择方法TFIDF及其改进 [J].
景丽萍 ;
黄厚宽 ;
石洪波 .
广西师范大学学报(自然科学版), 2003, (01) :142-145
[3]
Gene selection for cancer classification using support vector machines [J].
Guyon, I ;
Weston, J ;
Barnhill, S ;
Vapnik, V .
MACHINE LEARNING, 2002, 46 (1-3) :389-422
[4]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32