比较句与比较关系识别研究及其应用

被引:0
作者
李建军
机构
[1] 重庆大学
关键词
比较句识别; 比较关系抽取; 类别不平衡; 语义角色分析树; 自然语言处理;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
众所周知,比较是人类认识世界的一种重要手段和有说服力的表达方式,是世界各种语言的最重要的组成部分。随着Web2.0的深入发展,Internet技术更加注重与普通用户的交互,用户不仅是网站内容的读者,也是网站内容的作者。尤其最近几年,微博、播客、日志、维基、论坛等新型网络元素异军突起,使得网络信息更加个性化和多元化。这些信息中不乏是对各种新事物、新理论、新技术、新产品、新观点、新艺术的评论比较的文本信息。利用自然语言处理技术,高效地从这些信息中识别比较句和比较关系已成为近年来一个新颖的研究课题。论文在已有研究的基础上,对比较句与比较关系的自动识别做了系统深入的研究。主要包括以下几个方面的工作: ①提出熵值平衡算法(EBA)用来对语料的类别偏斜问题进行平衡处理。该算法基于熵是度量一个系统有序程度的原理,通过计算每个词汇的熵值,选择满足阈值的词汇构造平衡关键字集合,再用这个集合过滤每个类别的语料文本数据,使得大类的样本规模与小类的样本规模接近于1:1。该算法在对语料库中比较句与非比较句比例为796:8010的平衡结果为701:1226,达到了平衡的预期目标。 ②提出基于信息熵的比较句识别方法。该方法提取类间分布不均匀而类内分布均匀的词汇作为比较句的统计特征;利用Apriori算法挖掘满足最小支持度minsup和最小置信度minconf的词性序列模式作为比较句的序列特征。然后使用信息增益(IG)对得到的特征进行特征选择。最后使用SVM和NB分类器对语料的特征向量进行分类。实验表明该方法的F1值为81%,能有效地识别比较句。 ③提出基于语义角色句法分析树的比较关系识别方法。该方法将句法分析树和语义角色标注相融合,构造一种新的语义角色分析树,并设计了子树间的匹配相似度计算函数,计算最大可能的抽取结果,旨在提取比较关系中比较主体,比较客体,比较内容和比较结果。实验结果显示,对只含有一个关系的比较关系抽取效果较好,对含有多个关系的比较关系抽取,效果有待进一步提高。 ④实现了产品评论挖掘中比较句与比较关系识别的应用。在论文提出的比较句与比较关系识别理论框架内,提出了产品评论挖掘的框架和流程,实现了在产品评论挖掘中的比较句与比较关系识别的应用,从而验证了论文所提出的识别方案的可行性和正确性。
引用
收藏
页数:67
共 33 条
[1]
基于依存树的中文命名实体语义关系抽取的研究 [D]. 
王苑 .
中南大学,
2009
[2]
基于树核函数的中文实体语义关系抽取方法的研究 [D]. 
庄成龙 .
苏州大学,
2009
[3]
评论挖掘中的语义信息抽取 [D]. 
章剑锋 .
复旦大学,
2008
[4]
VOTCL及其在交叉销售问题上的应用研究 [J].
周广通 ;
尹义龙 ;
郭心建 ;
董彩玲 .
计算机研究与发展 , 2010, (09) :1539-1547
[5]
类别不平衡的分类方法及在生物信息学中的应用 [J].
邹权 ;
郭茂祖 ;
刘扬 ;
王峻 .
计算机研究与发展, 2010, 47 (08) :1407-1414
[6]
基于云模型的决策表规则约简 [J].
代劲 ;
何中市 .
计算机科学, 2010, 37 (06) :265-267+277
[7]
基于CRF算法的汉语比较句识别和关系抽取 [J].
黄高辉 ;
姚天昉 ;
刘全升 .
计算机应用研究, 2010, 27 (06) :2061-2064
[8]
最大熵原理在水文频率参数估计中的应用 [J].
肖可以 ;
宋松柏 .
西北农林科技大学学报(自然科学版), 2010, 38 (02) :197-205
[9]
计算语言学浅介 [J].
俞士汶 ;
朱学锋 .
术语标准化与信息技术, 2009, (03) :34-39
[10]
基于弱监督学习的产品特征抽取 [J].
伍星 ;
何中市 ;
黄永文 .
计算机工程, 2009, 35 (13) :199-201