面向山西旅游的知识图谱构建方法研究

被引:0
作者
张诺
机构
[1] 山西大学
关键词
山西旅游知识图谱; 三元组; 实体识别; 关系抽取; 联合抽取;
D O I
10.27284/d.cnki.gsxiu.2021.001744
年度学位
2021
学位类型
硕士
导师
摘要
随着移动互联网的爆发,旅游信息产业有了长足的进步和深入发展,导致旅游数据来源不同且相对分散,知识图谱作为大数据时代新型的知识表示方式,提供了一种较好地组织和管理互联网海量信息的技术,其中,实体关系抽取是构建知识图谱的关键技术,可以将非结构化文本中的知识进行提取。本文通过对百度百科与旅游垂直网站多源数据的分析,设计了山西旅游知识图谱的模式,开展了实体及其关系的抽取方法研究。主要研究工作如下:(1)两阶段三元组知识抽取方法。由于旅游类文本的结构复杂多样,往往存在语义联系较弱、距离过长和一词多义的问题,因此,本文提出了基于BERT预训练的位置感知的两阶段旅游三元组知识抽取方法。首先利用BERT-Span模型通过边界预测方法对进行旅游实体识别,其次,利用旅游数据中的字、语义、位置和实体类型特征,构建融合位置感知注意力和头尾实体类型的关系抽取模型。最后,在山西旅游数据集上设计进行了相关实验,结果F1值高于所选basline模型,证明了其有效性。(2)实体关系联合抽取方法。实体关系联合抽取的难点在于如何加强子模型之间交互且有效提取重叠的三元组,针对上述问题,本文提出一种基于头实体感知的层次标记方法,通过特殊的层次标记策略增强子任务之间的联系。该模型在特征融合时引入头实体感知注意力,能够指导模型更多地关注与头实体相关的重要语义信息,进一步增强三元组的抽取能力。实验结果表明,本文提出的方法在山西旅游数据集上的F1值达到82.18%,可以较大程度保证实体关系联合抽取的准确性。(3)面向旅游文本的三元组抽取系统。在本文提出的两阶段三元组抽取方法的技术基础上,构建了面向旅游文本的三元组抽取系统。该系统通过依次进行实体识别与关系分类完成三元组的抽取,另外还可以将已收集的三元组导入图形数据库,实现知识的可视化存储。该系统界面简洁,功能明确,可以展现本文提出方法的实用性。
引用
收藏
页数:69
共 22 条
[21]
双语影视知识图谱的构建研究 [J].
王巍巍 ;
王志刚 ;
潘亮铭 ;
刘阳 ;
张江涛 .
北京大学学报(自然科学版), 2016, 52 (01) :25-34
[22]
中医药知识图谱构建 [J].
贾李蓉 ;
刘静 ;
于彤 ;
董燕 ;
朱玲 ;
高博 ;
刘丽红 .
医学信息学杂志, 2015, 36 (08) :51-53+59