中文产品评论的意见挖掘研究

被引:0
作者
严孙荣
机构
[1] 北京交通大学
关键词
产品评论; 情感分类; 意见挖掘; 自然语言处理;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文主要内容如下: 采用机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取(分为基于词的unigram, bigram和基于字的unigram, bigram, trigram),结合不同的特征权重计算方法(TF,BOOL, TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。 设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。 最后,设计并实现了一个产品评论意见挖掘系统,该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。
引用
收藏
页数:89
共 15 条
[1]
基于语义理解的观点评论挖掘研究 [D]. 
倪茂树 .
大连理工大学,
2007
[2]
文本分类及其相关技术研究 [D]. 
李荣陆 .
复旦大学,
2005
[3]
Unsupervised named-entity extraction from the Web: An experimental study [J].
Etzioni, O ;
Cafarella, M ;
Downey, D ;
Popescu, AM ;
Shaked, T ;
Soderland, S ;
Weld, DS ;
Yates, A .
ARTIFICIAL INTELLIGENCE, 2005, 165 (01) :91-134
[4]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[5]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[6]
From Ukkonen to McCreight and Weiner: A unifying view of linear-time suffix tree construction [J].
Giegerich, R ;
Kurtz, S .
ALGORITHMICA, 1997, 19 (03) :331-353
[7]
On-line construction of suffix trees.[J].E. Ukkonen.Algorithmica.1995, 3
[8]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[9]
文本意见挖掘综述 [J].
姚天昉 ;
程希文 ;
徐飞玉 ;
汉思乌思克尔特 ;
王睿 .
中文信息学报, 2008, (03) :71-80
[10]
中文观点挖掘中的主观性关系抽取 [J].
章剑锋 ;
张奇 ;
吴立德 ;
黄萱菁 .
中文信息学报 , 2008, (02) :55-59+86