金融领域文本序列标注与实体关系联合抽取研究

被引:12
作者
唐晓波 [1 ,2 ]
刘志源 [1 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
关键词
关系抽取; 联合抽取; 文本序列标注; BERT; BiGRU;
D O I
10.13833/j.issn.1007-7634.2021.05.001
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)的基础上结合双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关系的识别。
引用
收藏
页码:3 / 11
页数:9
相关论文
共 19 条
  • [1] 命名实体识别研究综述 . 刘浏,王东波. 情报学报 . 2018
  • [2] 实体关系自动抽取 . 车万翔,刘挺,李生. 中文信息学报 . 2005
  • [3] Incremental joint extraction of entity mentions and relations . LI Q,JI H. proceedings of the Proceedings of the 52 nd Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers) . 2014
  • [4] 面向金融文本的实体识别与关系抽取研究 . 王树伟. 哈尔滨工业大学 . 2014
  • [5] 基于神经网络的药物实体与关系联合抽取 . 曹明宇,杨志豪,罗凌,林鸿飞,王健. 计算机研究与发展 . 2019
  • [6] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme . ZHENG S,WANG F,BAO H,et al. . 2017
  • [7] A Survey on Recent Advances in Named Entity Recognition from Deep Learning models . YADAV V,BETHARD S. https://ui. adsabs. harvard.edu/abs/2019 . 2019
  • [8] A Survey on Recent Advances in Named Entity Recognition from Deep Learning models . YADAV V,BETHARD S. https://ui. adsabs. harvard.edu/abs/2019arXiv191011470Y . 2019
  • [9] 基于BERT嵌入的中文命名实体识别方法 . 杨飘,董文永. https://doi.org/10.19678/j.issn.1000-3428.005054272 . 2020
  • [10] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780