基于JCWA-DLSTM的法律文书命名实体识别方法

被引:16
作者
王得贤 [1 ]
王素格 [1 ,2 ]
裴文生 [3 ]
李德玉 [1 ,2 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 山西大学计算智能与中文信息处理教育部重点实验室
[3] 北京市律典通科技有限公司
关键词
法律文书; 命名实体识别; 双向LSTM; 自注意力;
D O I
暂无
中图分类号
D916.1 [司法行政]; TP391.1 [文字信息处理];
学科分类号
030106 ; 081203 ; 0835 ;
摘要
对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。
引用
收藏
页码:51 / 58
页数:8
相关论文
共 4 条
[1]   基于CNN-BLSTM-CRF模型的生物医学命名实体识别 [J].
李丽双 ;
郭元凯 .
中文信息学报, 2018, 32 (01) :116-122
[2]  
面向法律文书的中文命名实体识别方法研究[D] 王礼敏 苏州大学 2018,
[3]  
面向中文法律文本的命名实体识别研究[D] 谢云 南京师范大学 2018,
[4]  
F-score driven max margin neural network for named entity recognition in Chinese social media He H;Sun X; Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics 2017,