基于不平衡数据的中文情感分类

被引:12
作者
王中卿
李寿山
朱巧明
李培峰
周国栋
机构
[1] 苏州大学计算机科学与技术学院
关键词
情感分类; 不平衡分类; 集成学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。
引用
收藏
页码:33 / 37+64 +64
页数:6
相关论文
共 4 条
[1]   不平衡类数据挖掘研究综述 [J].
翟云 ;
杨炳儒 ;
曲武 .
计算机科学, 2010, 37 (10) :27-32
[2]   基于Stacking组合分类方法的中文情感分类研究 [J].
李寿山 ;
黄居仁 .
中文信息学报, 2010, 24 (05) :56-61
[3]   A perspective view and survey of meta-learning [J].
Vilalta, R ;
Drissi, Y .
ARTIFICIAL INTELLIGENCE REVIEW, 2002, 18 (02) :77-95
[4]  
Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of re-views .2 TURNEY P. Proceedings of ACL’02 . 2002