一种基于远程监督的中文实体关系抽取方法

被引:0
作者
张硕望
机构
[1] 南华大学
关键词
关系抽取; 远程监督; 词汇语义相似度; 强化学习;
D O I
暂无
年度学位
2018
学位类型
硕士
导师
摘要
实体关系表达的是衔接两个对象之间的某种联系,在自动问答,信息检索等领域有着非常重要的作用,关系抽取任务就是从大量无结构或者半结构数据中准确快速地抽取出这种联系,提高信息的利用率。web2.0时代开始,网络数据呈指数倍增长,包含了更多有价值的知识以及无价值的噪声,这对关系抽取任务提出了更高的要求,关系抽取研究也日益得到专家学者的重视。目前较成熟的的关系抽取研究方法需要确定研究领域,且标注训练语料,指定关系类型,选取特征,训练分类器等工作均需人工处理,众多人工操作费时费力。据此,本文提出基于远程监督(distant supervision)和强化学习的关系抽取方法致力于解决上述问题。本文研究工作包括以下三个方面:首先,利用远程监督的思想,提取不同知识库之间的冗余信息,自动标注语料。同时针对自动标注可能存在的噪声问题,使用词汇语义相似度算法进行去噪,提高抽取精度。然后,使用近年来关系抽取研究中常用特征作为初始特征,利用随机森林算法测试特征的表征能力,过滤掉表征能力弱的特征。最后,使用Adaboost强化学习方法,构建多个弱分类器,训练得到最终的强分类器,并完成对实体关系的抽取。本文提出的方法使关系抽取的性能明显提高。在测试实验中,取得了71.6%的准确率和76.8%的召回率。
引用
收藏
页数:64
共 32 条
[1]
Kernel Methods for Relation Extraction..[J].Dmitry Zelenko;Chinatsu Aone;Anthony Richardella.Journal of Machine Learning Research.2003,
[2]
结合从句级远程监督与半监督集成学习的关系抽取方法 [J].
余小康 ;
陈岭 ;
郭敬 ;
蔡雅雅 ;
吴勇 ;
王敬昌 .
模式识别与人工智能, 2017, 30 (01) :54-63
[3]
基于双模型投票的人物关系抽取研究 [J].
李艳玲 ;
林民 .
计算机应用研究, 2017, 34 (03) :773-776
[4]
实体词语义信息对中文实体关系抽取的作用研究 [J].
段利国 ;
徐庆 ;
李爱萍 ;
崔敏君 .
计算机应用研究, 2017, 34 (01) :141-146
[5]
面向维基百科的领域知识演化关系抽取 [J].
高俊平 ;
张晖 ;
赵旭剑 ;
杨春明 ;
李波 .
计算机学报, 2016, 39 (10) :2088-2101
[6]
基于句法语义特征的中文实体关系抽取 [J].
甘丽新 ;
万常选 ;
刘德喜 ;
钟青 ;
江腾蛟 .
计算机研究与发展, 2016, (02) :284-302
[7]
中文指代消解模型的对比研究 [J].
周炫余 ;
刘娟 ;
罗飞 ;
刘洋 ;
颜晗 .
计算机科学, 2016, 43 (02) :31-34+56
[8]
基于远距离监督和模式匹配的职衔履历属性抽取 [J].
于东 ;
刘春花 ;
田悦 .
计算机应用, 2016, 36 (02) :455-459+464
[9]
基于多核融合的中文领域实体关系抽取 [J].
郭剑毅 ;
陈鹏 ;
余正涛 ;
线岩团 ;
毛存礼 ;
赵君 .
中文信息学报, 2016, (01) :24-29