中文文本分类中特征选择方法的比较研究

被引:3
作者
刘洋
机构
[1] 渤海大学信息科学与工程学院
关键词
特征选择; 文本分类; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。
引用
收藏
页码:54 / 54
页数:1
相关论文
共 3 条
[1]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]  
文本分类中的特征降维方法综述[J]. 陈涛,谢阳群.情报学报. 2005 (06)
[3]   A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167