各类厂商及消费者现在已越来越重视产品的评价,挖掘产品评论因此具有十分重要的意义。目前,厂商或消费者从评论文本中提取有价值的信息通常以人工阅读的方式来进行,效率低下。本文对自动化挖掘产品评论进行研究,给出一种自动抽取产品特征词汇的方法,并对评论文本进行不同粒度的情感倾向性判断,设计并实现一个基于产品评论的观点挖掘系统。论文的研究工作如下:
1.从产品的评论文本出发,给出一种基于自扩展的产品特征提取方法,从评论文本中抽取出产品特征,发现用户评价产品的侧重点。该算法仅由若干种子词汇来进行挖掘,再通过词语相似度、词语距离等进行修剪,最终达到挖掘产品特征词汇的目的。
2.针对传统的“特征—意见”词对不能完全概括文本的情感内容这一问题,本文在“特征一意见”词对的基础上,对其进行扩展,定义情感描述项用于描述文本的情感内容;并提出一种情感描述项抽取算法,结合产品特征词汇,挖掘出文本中的情感描述项。
3.研究不同粒度中文文本倾向性计算方法。对于文本整体倾向性判别,提出一种基于情感描述项和改进的互信息的情感极性计算方法,使得在判断文本整体倾向性时不再依靠情感资源,从而具有更好的移植性和准确性;对于词语级细粒度的情感倾向性判别,结合词语相似度,并配合情感描述项可以判定用户对于不同产品特征的情感倾向。
4.为满足自动化挖掘产品评论文本,在以上研究的基础上,根据观点挖掘系统使用者的用户需求,设计实现一个基于产品评论的观点挖掘系统。该系统可以自动抽取网站上的产品评论并进行相关预处理,发现产品评论文本中的特征词汇,并对评论整体和某产品特征对应的意见词进行情感极性判定,并将挖掘结果进行直观展示。