基于词典和规则集的中文微博情感分析

被引:64
作者
王志涛
於志文
郭斌
路新江
机构
[1] 西北工业大学计算机学院
[2] 陕西省嵌入式系统技术重点实验室
基金
高等学校博士学科点专项科研基金;
关键词
微博; 新词挖掘; 规则集; 情感分析;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。
引用
收藏
页码:218 / 225
页数:8
相关论文
共 2 条
[1]   基于层次结构的多策略中文微博情感分析和特征抽取 [J].
谢丽星 ;
周明 ;
孙茂松 .
中文信息学报, 2012, (01) :73-83
[2]  
Target-dependent Twitter SentimentClassification .2 Long Jiang,Mo Yu,Ming Zhou,et al. Proceedings of the49th Annual Meeting of the Association forComputational Linguistics . 2011