Web信息抽取中的若干关键问题研究

被引:0
作者
于永波
机构
[1] 中国科学技术大学
关键词
信息抽取; 命名实体消歧; 倾向性分析; 情感评价单元;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
近年来,随着Web应用的快速发展,互联网上的信息资源越来越丰富。在此背景下,Web信息抽取技术应运而生。Web信息抽取是一种从海量的数据中准确获取用户所需的事实信息的处理技术,涉及实体识别与抽取、关系抽取、实体消歧、观点挖掘和倾向性分析等诸多问题,目前已成为Web领域中的研究热点之一。 本文围绕Web信息抽取领域中的两类关键问题——命名实体消歧和倾向性信息抽取——开展了研究。命名实体消岐旨在消除Web中一个命名实体在指代概念上的歧义,从而确定其正确指代的实体。由于Web环境中一个命名实体指称项可以对应多个实体概念,如命名实体指称项“华盛顿”既可以指代美国总统乔治华盛顿也可以指代首府华盛顿哥伦比亚特区。因此,命名实体消歧技术在Web问答系统、信息检索、机器翻译等应用领域有着重要的应用价值。倾向性信息抽取关注于从海量的非结构化的web数据中挖掘出观点信息,继而分析信息发布者对其发布信息的情感倾向性。倾向性信息抽取在现代生活中有着诸多的应用,例如,可以帮助企业准确获取用户对产品的评价,以便优化营销策略;可以为政府部门在舆情监控、突发事件处理等提供决策依据。 本文针对命名实体消岐和倾向性信息抽取中存在的主要挑战开展了算法设计、实验验证等工作。论文的主要贡献可总结为如下几点: (1)提出了一种基于维基百科的命名实体消歧方法,通过实体指称项识别、候选实体库构建以及命名实体匹配等过程有效地实现了命名实体消岐。我们在该方法中提出了一种新型的待消歧实体指称项与候选实体之间的相似度计算方法,并利用维基百科的页面来挖掘实体之间、实体指称项与候选实体间的语义关联,最后在WISE Challenge2013数据集上验证了该方法的有效性。 (2)提出了一种基于句法依存关系和SVM的情感评价单元识别算法。情感评价单元在一个情感句中表现为情感倾向词和它修饰的评价对象的搭配,其直接决定情感句的情感倾向性。论文提出的算法首先通过简单模式匹配抽取所有可能的候选情感评价单元,然后通过SVM模型对候选情感单元集合进行过滤。在分类过程中,我们提出了基于句法依存关系来自动构建大规模训练集的方法,提高了分类模型训练的效率。在实际数据集上的实验表明该算法较以往的算法在准确率和召回率上均有明显的改善。
引用
收藏
页数:75
共 12 条
[1]
信息抽取中实体关系识别研究 [D]. 
张奇 .
中国科学技术大学,
2010
[2]
结合实体链接与实体聚类的命名实体消歧 [J].
谭咏梅 ;
杨雪 .
北京邮电大学学报 , 2014, (05) :36-40
[3]
文本情感倾向分析 [J].
黄萱菁 ;
张奇 ;
吴苑斌 .
中文信息学报, 2011, 25 (06) :118-126
[4]
基于句法路径的情感评价单元识别 [J].
赵妍妍 ;
秦兵 ;
车万翔 ;
刘挺 .
软件学报, 2011, 22 (05) :887-898
[5]
命名实体识别、排歧和跨语言关联 [J].
赵军 .
中文信息学报, 2009, 23 (02) :3-17
[6]
基于短语模式的文本情感分类研究 [J].
李钝 ;
曹付元 ;
曹元大 ;
万月亮 .
计算机科学, 2008, (04) :132-134
[7]
中文观点挖掘中的主观性关系抽取 [J].
章剑锋 ;
张奇 ;
吴立德 ;
黄萱菁 .
中文信息学报 , 2008, (02) :55-59+86
[8]
A network analysis model for disambiguation of names in lists [J].
Malin B. ;
Airoldi E. ;
Carley K.M. .
Computational & Mathematical Organization Theory, 2005, 11 (2) :119-139
[9]
Disambiguating web appearances of people in a social network..Bekkerman R;McCallum A;.Proceedings of the 14th international conference on World Wide Web.2005,
[10]
Overview of the TAC 2009 knowledge base population track..Paul McNamee;Hoa Trang Dang;.Text Analysis Conference(TAC).2009,