基于语义理解的观点评论挖掘研究

被引:0
作者
倪茂树
机构
[1] 大连理工大学
关键词
文本挖掘; 文本分类; 语义理解; 观点评论; 极性分析;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何从这些海量的文本中挖掘有用的信息成为当前研究的重要课题。文本挖掘是指以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。本文就是立足于文本挖掘技术的研究,结合当前电子商务和网上评论的盛行,从商品的观点评论中挖掘信息,反馈给商家和消费者。 本文第一部分详细地介绍了文本挖掘和观点评论挖掘的发展概况和相关技术,随后在第二部分系统地分析了文本挖掘所采用的技术及算法。同时,对文本挖掘中的重要分支——文本分类做了深入的研究,探讨了文本分类的一般过程,以及目前比较流行的分类方法。在文章的第三部分对前人所做的工作做了一些改进,分为两个方法,第一由于传统粗糙集规则匹配方法过于复杂,设计了一种简化算法的分类方法;第二是基于词共现概念的文本分类方法,弥补了传统向量空间模型中特征项的独立性,用词共现的概念特征体现了文档中的语义。两种方法虽然都提高了分类结果,但所面对的问题不一样,第一种是为了优化算法复杂度,而第二种是侧重于语义概念的。 本文的后三部分鉴于网络评论的流行,结合一些文本挖掘的思想,对网络商品评论的挖掘做了一些研究。借助于国外一些学者的研究成果,设计了两种商品评论挖掘算法。第一种算法为基于关联规则和语义理解的商品特征挖掘,思想主要侧重于挖掘商品评论中的特征,整体思想比较简单,但过分依赖于统计的方法,缺乏深入的语义分析;第二种算法是在第一种方法的缺陷上做了一定改进,利用依存关系定位观点词,同时将语义相似度的思想引入中文的商品评论中,结合中文和英文的区别,正确率和召回率均有所提高,但总体来说,由于网络评论的自由性,召回率不如正确率。
引用
收藏
页数:67
共 30 条
[1]
中文词法分析技术的研究与实现 [D]. 
张会鹏 .
哈尔滨工业大学,
2006
[2]
文本信息处理中汉语句法分析方法研究 [D]. 
朱国华 .
大连理工大学,
2006
[3]
Measuring praise and criticism.[J].Peter D. Turney;Michael L. Littman.ACM Transactions on Information Systems (TOIS).2003, 4
[4]
The World-Wide Web.[J].Oren Etzioni.Communications of the ACM.1996, 11
[5]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[6]
基于语言建模的文本情感分类研究 [J].
胡熠 ;
陆汝占 ;
李学宁 ;
段建勇 ;
陈玉泉 .
计算机研究与发展, 2007, (09) :1469-1475
[7]
基于类别空间模型的文本倾向性分类方法 [J].
李艳玲 ;
戴冠中 ;
朱烨行 .
计算机应用, 2007, (09) :2194-2196
[8]
基于多知识源的中文词法分析系统 [J].
姜维 ;
王晓龙 ;
关毅 ;
赵健 .
计算机学报, 2007, (01) :137-145
[9]
基于语义理解的文本倾向性识别机制 [J].
徐琳宏 ;
林鸿飞 ;
杨志豪 .
中文信息学报, 2007, (01) :96-100
[10]
汉语句子语义极性分析和观点抽取方法的研究 [J].
娄德成 ;
姚天昉 .
计算机应用, 2006, (11) :2622-2625