基于分组提升集成的跨领域文本情感分类

被引:12
作者
赵传君 [1 ]
王素格 [1 ,2 ]
李德玉 [1 ,2 ]
李欣 [1 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 计算智能与中文信息处理教育部重点实验室(山西大学)
关键词
情感分类; 跨领域; 合成过抽样技术; 分组提升; 集成分类器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据.在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据.在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器.在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度.
引用
收藏
页码:629 / 638
页数:10
相关论文
共 11 条
[1]   面向跨领域情感分类的统一框架 [J].
吴琼 ;
刘悦 ;
沈华伟 ;
张瑾 ;
许洪波 ;
程学旗 .
计算机研究与发展, 2013, 50 (08) :1683-1689
[2]   基于情感关键句抽取的情感分类研究 [J].
林政 ;
谭松波 ;
程学旗 .
计算机研究与发展, 2012, 49 (11) :2376-2382
[3]   基于赋权粗糙隶属度的文本情感分类方法 [J].
王素格 ;
李德玉 ;
魏英杰 .
计算机研究与发展, 2011, 48 (05) :855-861
[4]   基于随机游走模型的跨领域倾向性分析研究 [J].
吴琼 ;
谭松波 ;
许洪波 ;
段洣毅 ;
程学旗 .
计算机研究与发展, 2010, 47 (12) :2123-2131
[5]   跨领域倾向性分析相关技术研究 [J].
吴琼 ;
谭松波 ;
张刚 ;
段洣毅 ;
程学旗 .
中文信息学报, 2010, (01) :77-83
[6]  
Using a contextual entropy model to expand emotion words and their intensity for the sentiment classification of stock market news[J] . Liang-Chih Yu,Jheng-Long Wu,Pei-Chann Chang,Hsuan-Shou Chu.Knowledge-Based Systems . 2013
[7]   A two-stage framework for cross-domain sentiment classification [J].
Wu, Qiong ;
Tan, Songbo .
EXPERT SYSTEMS WITH APPLICATIONS, 2011, 38 (11) :14269-14275
[8]   A feature selection method based on improved fisher's discriminant ratio for text sentiment classification [J].
Wang, Suge ;
Li, Deyu ;
Song, Xiaolei ;
Wei, Yingjie ;
Li, Hongxia .
EXPERT SYSTEMS WITH APPLICATIONS, 2011, 38 (07) :8696-8702
[9]  
LIBSVM[J] . Chih-Chung Chang,Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST) . 2011 (3)
[10]   Improved boosting algorithms using confidence-rated predictions [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 1999, 37 (03) :297-336