基于文档结构与深度学习的金融公告信息抽取

被引:13
作者
黄胜 [1 ,2 ]
王博博 [1 ,2 ]
朱菁 [3 ]
机构
[1] 重庆邮电大学通信与信息工程学院
[2] 重庆邮电大学光通信与网络重点实验室
[3] 深圳证券信息有限公司数据中心
关键词
公告; 信息抽取; 神经网络; 文档结构树; 序列标注;
D O I
10.16208/j.issn1000-7024.2020.01.019
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。
引用
收藏
页码:115 / 121
页数:7
相关论文
共 3 条
[1]
高性能正则表达式匹配算法综述 [J].
付哲 ;
李军 .
计算机工程与应用, 2018, 54 (20) :1-13
[2]
信息抽取研究综述 [J].
郭喜跃 ;
何婷婷 .
计算机科学, 2015, 42 (02) :14-17+38
[3]
基于CRF和规则相结合的地理命名实体识别方法 [J].
何炎祥 ;
罗楚威 ;
胡彬尧 .
计算机应用与软件, 2015, 32 (01) :179-185+202