不平衡情感分类中的特征选择方法研究

被引:7
作者
王志昊
王中卿
李寿山
李培峰
机构
[1] 苏州大学计算机科学与技术学院
关键词
情感分类; 不平衡数据; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合"先随机欠采样后特征选择"模式能够取得最佳的分类效果。
引用
收藏
页码:113 / 118
页数:6
相关论文
共 17 条
[1]   基于不平衡数据的中文情感分类 [J].
王中卿 ;
李寿山 ;
朱巧明 ;
李培峰 ;
周国栋 .
中文信息学报, 2012, 26 (03) :33-37+64
[2]  
A Framework of Feature Selection Methods for Text Categorization. Shoushan Li,Rui Xia,Chengqing Zong. Proceeding of the 47th Annual Meeting of ACL and the 4th IJCNLP of the AFNLP . 2009
[3]  
The class imbalance problem: A Systematic Study. Japkowicz N,Stephen S. Intelligent DataAnalysis . 2002
[4]  
Strategies for learningin class imbalance problems. Barandels R,SNCHEZ J S,GARCA V. Pattern Recognition . 2003
[5]  
Annotating Expressions of Opinions and Emotions in Language[J] . Janyce Wiebe,Theresa Wilson,Claire Cardie. &nbspLanguage Resources and Evaluation . 2006 (2)
[6]  
Comparative experiments on sentiment classificationfor online product reviews. H. Cui,V. Mittal,M. Datar. Proceedings of the AAAI . 2006
[7]  
Opinion observer: Analyzing and comparing opin-ions on the web. Bing Liu,Minqing Hu,and Junsheng Cheng. Proceedings of WWW 2005 . 2005
[8]  
Cluster-based under-sampling ap-proaches for imbalanced data distributions. YEN S J,LEE Y S. ExpertSystems with Applications . 2009
[9]  
A comparative study on feature selection in text categorization. Yiming Yang,Jan O Pederson. Proceeding of the Fourteenth International Conference on Machine Learning (ICML’97) . 1997
[10]  
Thumbs up? sentiment classification using machine learning techniques. Bo Pang,Lillian Lee,Shivakumar Vaithyanathan. Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP) . 2002