文本分类中特征选择的约束研究

被引:24
作者
徐燕
李锦涛
王斌
孙春明
张森
机构
[1] 中国科学院计算技术研究所
关键词
特征选择; 文本分类; 信息检索; 信息增益; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的.
引用
收藏
页码:596 / 602
页数:7
相关论文
共 4 条
[1]   文本分类中基于基尼指数的特征选择算法研究 [J].
尚文倩 ;
黄厚宽 ;
刘玉玲 ;
林永民 ;
瞿有利 ;
董红斌 .
计算机研究与发展, 2006, (10) :1688-1694
[2]   几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148
[3]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[4]  
Induction of decision trees[J] . J. R. Quinlan.Machine Learning . 1986 (1)