基于信息抽取的实体知识库系统研究

被引:0
作者
李明鑫
机构
[1] 北京交通大学
关键词
信息抽取; 命名实体识别; 实体关系抽取; 条件随机场; 句法分析;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题,依据相同类别的中文命名实体往往具有结构或规则的相似性的特点,分实体类别采用不同的识别过程,实现命名实体的有效识别。提出通过设置不同的特征模板,使用条件随机场算法训练得到实体识别模板,并且针对识别难度较高的地名实体、组织机构实体采用校准规则,提升整体识别效果,完成命名实体识别模型的构建。此外,论文提出了一种面向网络新闻语料,从大规模数据中抽取实体关系的无监督实体关系抽取模型,该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数,对有关系的实体对进行识别;使用句法分析构建规则,提取关系特征词,并结合"上下文窗口"的特征词提取方法的结果,建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法,实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类,得到实体关系。为了验证方法的有效性,论文使用网络获取的语料,分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析,可以看出,论文提出的方法能够有效地识别命名实体及其关系,提升实体知识库系统的数据采集性能。
引用
收藏
页数:80
共 24 条
[1]
面向开放领域文本的实体关系抽取 [D]. 
郭喜跃 .
华中师范大学,
2016
[2]
半监督聚类与分类算法研究 [D]. 
甘海涛 .
华中科技大学,
2014
[3]
信息抽取中关键技术的研究 [D]. 
张素香 .
北京邮电大学,
2007
[4]
Web信息抽取中的若干关键问题研究 [D]. 
于永波 .
中国科学技术大学,
2015
[5]
基于隐马尔科夫模型词性标注的研究 [D]. 
牛秀萍 .
太原理工大学,
2013
[6]
基于统计与规则相结合的命名实体识别研究 [D]. 
闫萍 .
河南工业大学,
2012
[7]
基于最大熵模型的中文命名实体识别方法研究 [D]. 
杨华 .
哈尔滨工程大学,
2008
[8]
基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例 [J].
周鹏程 ;
武川 ;
陆伟 .
现代图书情报技术 , 2016, (06) :1-11
[9]
基于句法语义特征的中文实体关系抽取 [J].
甘丽新 ;
万常选 ;
刘德喜 ;
钟青 ;
江腾蛟 .
计算机研究与发展, 2016, (02) :284-302
[10]
大数据相关知识概述 [J].
本刊编辑部 .
保密科学技术, 2015, (09) :10-11