基于系统工程文档的领域知识库构建

被引:0
作者
邢高生
机构
[1] 北京交通大学
关键词
领域知识库; 关系抽取; 知识表示;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
近年来,在搜索引擎巨头谷歌推出的"知识图谱"的影响下,国内的众多知名公司纷纷推出了自己的相关产品,如百度公司的"知心搜索"、搜狗公司的"知立方"等。在这样的大背景影响下,各个行业也开始思考构建属于自己的领域知识库,这可以为企业在运营决策上提供全面和智能的支持。本文以HKBZ领域的系统工程文档为语料,融合了领域内的结构化、半结构化、非结构化数据,从而构建了该领域的知识库系统。该系统所涉及的领域知识主要包括文档与文档间关系(包含引用关系和相似关系)、文档与实体间关系、实体与实体间关系以及其他相关知识。本文分析了领域知识库构建方法和当前的研究现状,详细地描述了命名实体识别、实体关系抽取、知识表示这三个知识库构建的基本环节。本文主要有以下三点贡献:(1)在知识库构建的实体关系抽取环节,针对系统工程文档的特点,提出了基于词激活力理论的四种实体对特征向量构造方法,并利用多种分类模型进行实验加以验证分析,依据实验结果得出了最为可靠的特征向量构造方法;(2)在知识库构建的知识表示环节,本文分析比较了多种主流的知识表示方法,为了弥补基于本体概念的知识表示在共享、重用和互操作等方面的不足,提出了一种基于JsonSchema的面向对象知识表示方法;(3)在系统实现环节中,本文设计并实现了一个自动化性强、知识复用率高、查询速度快、命中率高的领域知识库原型系统。此外,本文从全自动化构建领域知识库的角度出发,提出了一套完整的HKBZ领域知识库的构建方案,对其他领域知识库的构建也具有一定的参考价值和指导意义。
引用
收藏
页数:70
共 22 条
[1]
实体关系自动抽取.[A].车万翔;刘挺;李生;.NCIRCS2004第一届全国信息检索与内容安全学术会议.2004,
[2]
基于本体的概念设计知识表示方法及知识管理系统 [P]. 
田凌 ;
郭乾统 ;
武园浩 .
中国专利 :CN104715042A ,2015-06-17
[3]
基于图数据库的电影知识图谱应用研究 [J].
陆晓华 ;
张宇 ;
钱进 .
现代计算机(专业版), 2016, (07) :76-83
[4]
面向军事文本的命名实体识别 [J].
冯蕴天 ;
张宏军 ;
郝文宁 .
计算机科学, 2015, 42 (07) :15-18+47
[5]
基于本体的装备故障知识库构建 [J].
苏正炼 ;
严骏 ;
陈海松 ;
曾拥华 .
系统工程与电子技术, 2015, 37 (09) :2067-2072
[6]
基于Lucene的余弦距离检测文档相似度方法的研究 [J].
刘妍 .
信息系统工程, 2014, (04) :129-130+142
[7]
知识表示方法比较 [J].
刘建炜 ;
燕路峰 .
计算机系统应用, 2011, 20 (03) :242-246
[8]
一种高效的基于启发式规则和词典相结合的双语词对齐方法 [J].
任志敏 ;
蔡东风 ;
尹宝生 .
沈阳航空工业学院学报, 2010, 27 (05) :73-77
[9]
命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[10]
基于语义网络的知识表示在专家系统中的实现 [J].
张聪品 ;
胡伟强 .
微电子学与计算机, 2009, 26 (04) :214-216+221