在线评论情感分析中固定搭配特征提取方法研究

被引:26
作者
王祖辉
姜维
李一军
机构
[1] 哈尔滨工业大学信息管理与信息系统研究所
基金
中央高校基本科研业务费专项资金资助;
关键词
情感分析; 固定搭配特征提取; 互信息与平均互信息; 粗糙集; 支持向量机;
D O I
10.13587/j.cnki.jieem.2014.04.053
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
有效和稳定的特征提取和特征表示是提高在线评论情感分析性能的重要因素。在常规的连续词袋性、触发对等特征的基础上,本文研究在线评论中固定搭配特征的提取与表示方法,提出结合互信息和平均互信息、基于粗糙集两种策略用于固定搭配特征提取,并从特征抽取方法的有效性和稳定性分析出发考查所抽取的固定搭配其内部及外部稳定性,并将经筛选的固定搭配特征融合于多种情感分析模型中进行情感分析。真实酒店评论数据上的实验表明,固定搭配特征的恰当表示和筛选有效改善情感分析模型的分类精度,此外研究发现评论中情感特征词分布不均衡情况下采用可变精度粗规则的提取策略有助于提高情感分析的分类精度。
引用
收藏
页码:180 / 186
页数:7
相关论文
共 8 条
[1]   互联网商品评论情感分析研究综述 [J].
张紫琼 ;
叶强 ;
李一军 .
管理科学学报, 2010, 13 (06) :84-96
[2]   面向话题的新闻评论的情感特征选取 [J].
陶富民 ;
高军 ;
王腾蛟 ;
周凯 .
中文信息学报, 2010, 24 (03) :37-43
[3]   基于情感词典扩展技术的网络舆情倾向性分析 [J].
杨超 ;
冯时 ;
王大玲 ;
杨楠 ;
于戈 .
小型微型计算机系统, 2010, 31 (04) :691-695
[4]   文本意见挖掘综述 [J].
姚天昉 ;
程希文 ;
徐飞玉 ;
汉思乌思克尔特 ;
王睿 .
中文信息学报, 2008, (03) :71-80
[5]   融合聚类触发对特征的最大熵词性标注模型 [J].
赵岩 ;
王晓龙 ;
刘秉权 ;
关毅 .
计算机研究与发展, 2006, (02) :268-274
[6]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[7]   Rough集高效算法的研究 [J].
刘少辉 ;
盛秋戬 ;
吴斌 ;
史忠植 ;
胡斐 .
计算机学报, 2003, (05) :524-529
[8]  
应用粗糙集理论提取特征的词性标注模型[J]. 姜维,王晓龙,关毅,徐志明.高技术通讯. 2006 (10)