一种基于区分能力的多类不平衡文本分类特征选择方法

被引:7
作者
张延祥
潘海侠
机构
[1] 北京航空航天大学软件学院
关键词
文本分类; 不平衡问题; 特征选择; 主导性分析; 区分能力;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类中的不平衡数据问题在现实应用中比较普遍。传统的特征选择方法在不平衡问题上倾向于多数类而忽略稀有类。针对这种倾向性该文提出了一种主导性分析量化方法,并基于对该方法的优化提出了一种基于类别区分能力的特征选择方法,即DA(Discriminative Ability)方法,该方法使用文档概率的最小绝对值差作为评分标准,一定程度上保证了特征选择在稀有类与多数类上的公平性。实验表明,DA优于CHI、IG、DFICF,尤其在F1宏平均指标上,DA在不平衡问题上能够取得更好的降维效果。
引用
收藏
页码:111 / 119
页数:9
相关论文
共 17 条
[1]  
HHMM-based Chinese Lexical Analyzer ICTCLAS. Hua-Ping Zhang,Hong-Kui Yu,De-Yi Xiong,et al. Proceedings of the Second SIGHAN Workshop on Chinese Language Processing . 2003
[2]  
A comparative study on feature selection in text categorization. Yang YM,Pedersen JO. Proceedings of the 14th International Conference on Machine Learning . 1997
[3]  
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari. &nbspACM SIGKDD Explorations Newsletter . 2004 (1)
[4]  
On strategies for imbalanced text classification using SVM: A comparative study[J] . Aixin Sun,Ee-Peng Lim,Ying Liu. &nbspDecision Support Systems . 2009 (1)
[5]  
Feature selection for high-dimensional imbalanced data[J] . Liuzhi Yin,Yong Ge,Keli Xiao,Xuehua Wang,Xiaojun Quan. &nbspNeurocomputing . 2012
[6]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[7]   中文文本分类中基于概念屏蔽层的特征提取方法 [J].
廖莎莎 ;
江铭虎 .
中文信息学报, 2006, (03) :22-28
[8]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[9]   面向文本分类的基于最小冗余原则的特征选取 [J].
张希娟 ;
王会珍 ;
朱靖波 .
中文信息学报, 2007, (05) :56-60
[10]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89