在线中文评论情感分类问题研究

被引:0
作者
张紫琼
机构
[1] 哈尔滨工业大学
关键词
在线中文评论; 情感分类; 商家绩效; 监督学习; 语义倾向; 主观文本识别;
D O I
暂无
年度学位
2010
学位类型
博士
摘要
随着计算机和网络技术的快速发展,互联网已经成为生活中不可或缺的重要信息来源,深刻地影响了消费者的行为模式。越来越多的消费者开始浏览在线评论来了解产品和服务的口碑,以便做出明智的购买决策。在线用户评论作为一种反馈机制也可以帮助生产者和销售商了解产品的优点和不足,从而改进产品改善服务,获得竞争优势。但在线评论增长十分迅速,在线评论对商家绩效将产生怎样的影响?怎样有效地处理大量承载着信息的数据以获取消费者情感倾向分布?怎样区分评论信息和非评论信息等问题逐渐成为当前管理和信息科学领域面临的挑战。在线中文评论相关研究仍处于起步阶段,随着中国互联网规模和普及水平的提高,亟需展开在线中文评论自动挖掘技术。 本文在对国内外研究成果梳理、总结的基础上,运用经济管理、自然语言处理、文本分类、语言学等学科的理论和方法,从在线评论对商家绩效的影响、评论情感倾向自动分析和评论与非评论识别三个方面来进行在线中文评论情感分类研究。本文主要研究内容及创新点包括: 1、在线中文评论情感分类研究问题的提出。通过整理现有在线评论挖掘相关文献,将现有研究分为行为导向和技术导向两种,提出了中文在线评论情感分类亟需进行的三个研究方面。对口碑、在线口碑、在线评论以及评论情感分类的概念进行界定,明确了本文的研究范畴。 2、研究了在线中文评论对商家绩效的影响。以大众点评网作为数据来源,将餐馆页面受关注度视为商家绩效的代理,建立在线评论与商家绩效的关系模型。结果表明消费者评论显著正面影响商家绩效,而网站评分和编辑评论的存在显著负面影响商家绩效。接着详细探讨了第三方评论平台和商家应采取的在线评论管理和利用策略。最后分析了评论情感计算领域的学者应该从哪些方面帮助人们自动理解在线评论。 3、研究了基于监督学习的中文评论情感分类方法。探讨了基于向量空间模型的中文评论情感分类方法,主要包括文本表示方法、特征选择方法和分类方法。在N元语言模型的基础上,研究了基于字符语言模型的中文评论情感分类方法。接着分别在中英文语料上,通过实验比较了Na ve Bayes、SVM和字符语言模型的情感分类性能,以及训练集规模对情感分类效果的影响。最后,探讨了字符语言模型中N的取值对中文评论情感分类效果的影响。实验结果表明,字符语言模型在中文评论情感分类任务中能取得比较好的效果。 4、研究了基于语义的中文评论情感分类方法。探讨基于PMI-IR中文评论情感分类方法,着重考察PMI-IR方法中搜索引擎和基准词汇的选择对评论情感分类效果的影响。提出一种利用搜索引擎返回的Snippet计算中文词语和评论情感倾向的方法,实验结果表明Snippet方法效果受基准正负面词汇、窗口大小和分类阈值的共同作用。最后通过实验比较了PMI-IR方法和Snippet方法对中文评论情感分类的效果,结果表明选择适当的基准词对,Snippet方法能够取得比PMI-IR方法更好的分类效果。 5、研究了基于bootstrapping在Web大规模无标注真实语料中,自动构建中文主、客观语料集的方法。探讨基于bootstrapping的中文主、客观语句自动收集模型和算法,重点分析中文主观模式的构建方法以及主观性短语和主观语句的识别方法。最后,分析bootstrapping方法存在的不足,以及如何在后续研究中利用收集的主、客观语料训练评论识别模型或从中学习主观模式,以支持在线评论挖掘研究。
引用
收藏
页数:142
共 74 条
[1]
基于同义词词林的词汇褒贬计算.[A].路斌;万小军;杨建武;陈晓鸥;.第七届中文信息处理国际会议.2007,
[2]
中文网络客户评论中的产品特征挖掘方法研究 [D]. 
李实 .
哈尔滨工业大学,
2009
[3]
基于电影面板数据的在线评论情感倾向对销售收入影响的实证研究 [J].
郝媛媛 ;
邹鹏 ;
李一军 ;
叶强 .
管理评论, 2009, 21 (10) :95-103
[4]
基于同义词的词汇情感倾向判别方法 [J].
王素格 ;
李德玉 ;
魏英杰 ;
宋晓雷 .
中文信息学报, 2009, (05) :68-74
[5]
基于自扩展的信息抽取模式自动获取 [J].
于江德 ;
王立新 ;
樊孝忠 .
小型微型计算机系统, 2009, 30 (05) :891-894
[6]
中文网络客户评论的产品特征挖掘方法研究 [J].
李实 ;
叶强 ;
李一军 ;
Rob Law .
管理科学学报, 2009, 12 (02) :142-152
[7]
基于字符语言模型的垃圾邮件过滤 [J].
苏绥 ;
林鸿飞 ;
叶正 .
中文信息学报, 2009, 23 (02) :41-47
[8]
一种基于Bootstrapping的本体学习方法 [J].
张俊 ;
高志强 ;
徐惠 ;
蔡施彦 ;
戴云徽 .
南京师范大学学报(工程技术版), 2008, (04) :56-58
[9]
基于HowNet的句子褒贬倾向性研究 [J].
熊德兰 ;
程菊明 ;
田胜利 .
计算机工程与应用, 2008, (22) :143-145
[10]
情感语料库的构建和分析 [J].
徐琳宏 ;
林鸿飞 ;
赵晶 .
中文信息学报, 2008, (01) :116-122