基于BERT的警情文本命名实体识别

被引:47
作者
王月 [1 ,2 ]
王孟轩 [1 ,2 ]
张胜 [1 ,2 ]
杜渂 [1 ,2 ]
机构
[1] 迪爱斯信息技术股份有限公司
[2] 电信科学技术第一研究所
关键词
警情文本; 命名实体识别; 预训练语言模型; 标注规范; 词向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
摘要
针对警情领域关键实体信息难以识别的问题,提出一种基于BERT的神经网络模型BERT-BiLSTMAttention-CRF用于识别和提取相关命名实体,且针对不同案由设计了相应的实体标记注规范。该模型使用BERT预训练词向量代替传统Skip-gram和CBOW等方式训练的静态词向量,提升了词向量的表证能力,同时解决了中文语料采用字向量训练时词语边界的划分问题;还使用注意力机制改进经典的命名实体识别(NER)模型架构BiLSTM-CRF。BERT-BiLSTM-Attention-CRF模型在测试集上的准确率达91%,较CRF++的基准模型提高7%,也高于BiLSTM-CRF模型86%的准确率,其中相关人名、损失金额、处理方式等实体的F1值均高于0. 87。
引用
收藏
页码:535 / 540
页数:6
相关论文
empty
未找到相关数据