面向山西旅游的知识图谱构建方法研究

被引:0
作者
张诺
机构
[1] 山西大学
关键词
山西旅游知识图谱; 三元组; 实体识别; 关系抽取; 联合抽取;
D O I
10.27284/d.cnki.gsxiu.2021.001744
年度学位
2021
学位类型
硕士
导师
摘要
随着移动互联网的爆发,旅游信息产业有了长足的进步和深入发展,导致旅游数据来源不同且相对分散,知识图谱作为大数据时代新型的知识表示方式,提供了一种较好地组织和管理互联网海量信息的技术,其中,实体关系抽取是构建知识图谱的关键技术,可以将非结构化文本中的知识进行提取。本文通过对百度百科与旅游垂直网站多源数据的分析,设计了山西旅游知识图谱的模式,开展了实体及其关系的抽取方法研究。主要研究工作如下:(1)两阶段三元组知识抽取方法。由于旅游类文本的结构复杂多样,往往存在语义联系较弱、距离过长和一词多义的问题,因此,本文提出了基于BERT预训练的位置感知的两阶段旅游三元组知识抽取方法。首先利用BERT-Span模型通过边界预测方法对进行旅游实体识别,其次,利用旅游数据中的字、语义、位置和实体类型特征,构建融合位置感知注意力和头尾实体类型的关系抽取模型。最后,在山西旅游数据集上设计进行了相关实验,结果F1值高于所选basline模型,证明了其有效性。(2)实体关系联合抽取方法。实体关系联合抽取的难点在于如何加强子模型之间交互且有效提取重叠的三元组,针对上述问题,本文提出一种基于头实体感知的层次标记方法,通过特殊的层次标记策略增强子任务之间的联系。该模型在特征融合时引入头实体感知注意力,能够指导模型更多地关注与头实体相关的重要语义信息,进一步增强三元组的抽取能力。实验结果表明,本文提出的方法在山西旅游数据集上的F1值达到82.18%,可以较大程度保证实体关系联合抽取的准确性。(3)面向旅游文本的三元组抽取系统。在本文提出的两阶段三元组抽取方法的技术基础上,构建了面向旅游文本的三元组抽取系统。该系统通过依次进行实体识别与关系分类完成三元组的抽取,另外还可以将已收集的三元组导入图形数据库,实现知识的可视化存储。该系统界面简洁,功能明确,可以展现本文提出方法的实用性。
引用
收藏
页数:69
共 22 条
[1]
基于有向图模型的旅游领域命名实体识别 [J].
崔丽平 ;
古丽拉阿东别克 ;
王智悦 .
计算机工程, 2022, 48 (02) :306-313
[2]
知识图谱研究现状及军事应用 [J].
林旺群 ;
汪淼 ;
王伟 ;
王重楠 ;
金松昌 .
中文信息学报, 2020, (12) :9-16
[3]
基于地理空间数据的知识图谱构建技术研究 [J].
刘俊楠 ;
刘海砚 ;
陈晓慧 ;
郭漩 ;
朱新铭 .
中文信息学报, 2020, (11) :29-36
[4]
煤矿安全知识图谱构建及智能查询方法研究 [J].
刘鹏 ;
叶帅 ;
舒雅 ;
鹿晓龙 ;
刘明明 .
中文信息学报, 2020, (11) :49-59
[5]
面向司法案件的案情知识图谱自动构建 [J].
洪文兴 ;
胡志强 ;
翁洋 ;
张恒 ;
王竹 ;
郭志新 .
中文信息学报, 2020, 34 (01) :34-44
[6]
基于神经网络的药物实体与关系联合抽取 [J].
曹明宇 ;
杨志豪 ;
罗凌 ;
林鸿飞 ;
王健 .
计算机研究与发展 , 2019, (07) :1432-1440
[7]
基于BiLSTM-CRF的商情实体识别模型 [J].
张应成 ;
杨洋 ;
蒋瑞 ;
全兵 ;
张利君 ;
任晓雷 .
计算机工程, 2019, 45 (05) :308-314
[8]
融合依存信息Attention机制的药物关系抽取研究 [J].
李丽双 ;
钱爽 ;
周安桥 ;
刘阳 ;
郭元凯 .
中文信息学报, 2019, (02) :89-96
[9]
海量法律文书中基于CNN的实体关系抽取技术 [J].
高丹 ;
彭敦陆 ;
刘丛 .
小型微型计算机系统, 2018, 39 (05) :1021-1026
[10]
知识图谱研究综述 [J].
李涓子 ;
侯磊 .
山西大学学报(自然科学版), 2017, 40 (03) :454-459