面向不平衡文本的特征选择方法

被引:5
作者
廖一星 [1 ,2 ]
潘雪增 [1 ]
机构
[1] 浙江大学计算机科学与技术学院
[2] 浙江财经学院东方学院
关键词
特征选择方法; 不平衡数据集; 强类别相关; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。
引用
收藏
页码:592 / 595
页数:4
相关论文
共 2 条
[1]   基于类别分布的特征选择框架 [J].
靖红芳 ;
王斌 ;
杨雅辉 ;
徐燕 .
计算机研究与发展, 2009, 46 (09) :1586-1593
[2]  
A Comparative Study on Feature Selection in Text Categorization .2 Yang Y,Pedersen J O. The Fourteenth International Conference on Machine Learning . 1997