集合CHI与IG的特征选择方法

被引:21
作者
王光
邱云飞
史庆伟
机构
[1] 辽宁工程技术大学软件学院
关键词
文本分类; 特征选择; 卡方统计; 信息增益;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一特定类,并且使特征词在这一类中出现的次数尽可能地多;最后集合CHI与IG两种算法得到一种集合特征选择方法(CCIF)。通过实验对比传统的卡方特征选择、信息增益和CCIF方法,CCIF方法使得算法的微平均查准率得到了明显的提高。
引用
收藏
页码:2454 / 2456
页数:3
相关论文
共 1 条
[1]  
AComparativeStudyonFeatureSelectioninTextCategorization.2YangY,PedersenJO.TheFourteenthInternationalConferenceonMachineLearning.1997