面向中文文献的金矿时空属性信息抽取及知识图谱可视化表达

被引:0
作者
汪陈
机构
[1] 合肥工业大学
关键词
中文文献; 金矿实体; 时空与属性信息; 深度学习; 聚合模型; 注意力机制; 知识图谱;
D O I
10.27101/d.cnki.ghfgu.2021.000991
年度学位
2021
学位类型
硕士
摘要
大数据时代背景下,数据已经成为最具竞争力的资产。非结构化地质文本数据成为矿产大数据的一种重要数据源。特别是地质期刊文献更新快、数量大,表达的知识较为前沿新颖,内容表述规范,包含知识密集丰富。本文采用“语料库构建-信息抽取-知识图谱可视化表达-原型系统”的技术路线,开展面向中文文献的金矿时空属性信息抽取及知识图谱可视化表达研究,采用深度学习模型实现金矿信息提取与语义分析,利用知识图谱技术方法实现金矿信息的可视化表达,为金矿大数据的深度挖掘和利用提供有力的数据基础和技术支持。主要研究内容与创新点包括以下几个方面:(1)金矿信息标注语料库的构建。收集2000年至2020年《矿床地质》、《岩石学报》、《地质找矿》等期刊发表的文章,归纳总结金矿描述特征,制定金矿信息标注规范,基于自主研发的“交互式矿产信息标注软件”,构建金矿信息标注语料库,为金矿信息提取提供标准化的训练和测试数据。(2)基于双分支聚合模型的金矿实体与属性信息抽取方法。针对金矿实体与属性信息描述特征,设计基于双分支聚合模型(BERT+Bi LSTM+CNN+CRF)的金矿实体与属性信息抽取方法。基于小规模的金矿实体与属性信息标注数据对BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行参数微调;然后,采用双向长短期记忆模型(Bidirectional Long Short-Term Memory,Bi LSTM)与卷积神经网络模型(Convolutional Neural Network,CNN)分别对BERT的输出进行特征提取,聚合两个分支所获得的特征;最后,条件随机场(Conditional Random Field,CRF)利用聚合特征预测金矿实体和属性信息类型标签。实验对比分析了CRF、BERT+CRF(ori-BERT)、BERT+CRF(wwm-BERT)、Bi LSTM+分类器、Bi LSTM+CRF、BERT+Bi LSTM+CRF(ori-BERT)、BERT+Bi LSTM-CRF(wwm-BERT)等不同模型组合的金矿实体与属性信息抽取结果,验证了深度学习模型对金矿实体与属性信息抽取的适用性与有效性。实验结果表明,使用双分支聚合模型对金矿实体与属性信息抽取效果最好,金矿实体信息提取F1值为94.27%,时间属性信息提取F1值为94.87%,空间属性信息F1值为92.89%,非时空属性信息提取F1值为90.78%。(3)研究基于CNN、Attention+Bi LSTM、Transformer三种不同模型的特征抽取器,实现金矿实体关系、金矿实体与时空属性信息的关联关系识别。实验结果表明:与Attention+Bi LSTM、Transformer相比,CNN能够较好地提取金矿实体关系、金矿实体与非时空属性关联关系、金矿实体与空间属性关联关系,取得F1值分别为93.64%、88.18%、83.47%;Attention+Bi LSTM模型对金矿实体与时间属性关联关系的效果最好,F1值为89.84%。(4)金矿知识图谱可视化表达以及原型系统。依据金矿文献中信息描述特征,构建金矿知识表达模型。基于金矿时空与属性信息结构化抽取结果,以金矿知识表达模型为指导,借助通用的三元组<节点1、关系、节点2>知识表示方式,使用开源的EChars建立基于语义网络的知识图结构,实现金矿知识图谱可视化表达;研发金矿时空属性信息抽取与知识图谱可视化表达原型系统,实现金矿文献数据的查询、金矿信息提取、金矿信息抽取结果评价、金矿知识库等功能。
引用
收藏
页数:89
共 49 条
[1]
实体和属性对齐方法的研究与实现 [D]. 
杨秀璋 .
北京理工大学,
2016
[2]
钦杭成矿带斑岩铜矿知识图谱构建及应用展望 [J].
周永章 ;
张前龙 ;
黄永健 ;
杨威 ;
肖凡 ;
吉俊杰 ;
韩枫 ;
唐磊 ;
欧阳冲 ;
沈文杰 .
地学前缘, 2021, 28 (03) :67-75
[3]
顾及时空特征的地理知识图谱构建方法 [J].
张雪英 ;
张春菊 ;
吴明光 ;
闾国年 .
中国科学:信息科学, 2020, 50 (07) :1019-1032
[4]
[5]
代码知识图谱构建及智能化软件开发方法研究 [J].
王飞 ;
刘井平 ;
刘斌 ;
钱铁云 ;
肖仰华 ;
彭智勇 .
软件学报, 2020, 31 (01) :47-66
[6]
卷积神经网络及其在矿床找矿预测中的应用——以安徽省兆吉口铅锌矿床为例 [J].
刘艳鹏 ;
朱立新 ;
周永章 .
岩石学报, 2018, 34 (11) :3217-3224
[7]
大数据时代:地质学的挑战与机遇 [J].
翟明国 ;
杨树锋 ;
陈宁华 ;
陈汉林 .
中国科学院院刊, 2018, 33 (08) :825-831
[8]
数据预处理技术在地学大数据中应用 [J].
王成彬 ;
马小刚 ;
陈建国 .
岩石学报, 2018, 34 (02) :303-313
[9]
基于文献的地质实体关系抽取方法研究 [J].
吕鹏飞 ;
王春宁 ;
朱月琴 .
中国矿业, 2017, (10) :167-172
[10]
大数据在地质资料管理与服务中“落地”问题分析 [J].
韩媛 ;
张红英 ;
粱楠 .
中国地质调查, 2016, 3 (03) :67-70