基于微博表情符号的情感词典构建研究

被引:17
作者
桂斌 [1 ,2 ]
杨小平 [1 ]
张中夏 [1 ]
肖文韬 [1 ]
机构
[1] 中国人民大学信息学院
[2] 淮阴师范学院传媒学院
基金
北京市自然科学基金;
关键词
表情符号; 情感词典; 语料库; 情感极性;
D O I
10.15918/j.tbit1001-0645.2014.05.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于微博表情符号,提出一种自动构建情感词典的方法.从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库.对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典.这是一种全新的思路.以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上.
引用
收藏
页码:537 / 541
页数:5
相关论文
共 2 条
  • [1] 基于HowNet的词汇语义倾向计算
    朱嫣岚
    闵锦
    周雅倩
    黄萱菁
    吴立德
    [J]. 中文信息学报, 2006, (01) : 14 - 20
  • [2] 基于同义词词林的词汇褒贬计算[A]. 路斌,万小军,杨建武,陈晓鸥.中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C]. 2007