基于匹配策略和社区注意力机制的法律文书命名实体识别

被引:14
作者
郭力华 [1 ]
李旸 [2 ]
王素格 [1 ,3 ]
陈鑫 [1 ]
符玉杰 [1 ]
裴文生 [4 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 山西财经大学金融学院
[3] 山西大学计算智能与中文信息处理教育部重点实验室
[4] 北京市律典通科技有限公司
关键词
法律文书; 命名实体识别; 自注意力; BiLSTM;
D O I
暂无
中图分类号
D916.1 [司法行政]; TP391.1 [文字信息处理];
学科分类号
030106 ; 081203 ; 0835 ;
摘要
根据司法案件文书中实体名长度较长以及实体间的关联性较强这一特点,该文提出了一种利用最大正向匹配策略和社区注意力机制(FMM-CAM)的法律文书命名实体识别方法。该方法利用最大正向匹配策略,优先获得法律文书中每个字对应的较长的匹配词,将匹配词按字在词中的位置划分到B、M、E、S四个匹配词社区,并利用社区自注意力机制获取不同匹配词之间的关联性权重信息。具体过程利用BERT和Word2Vec的字表示,将字和匹配词社区压缩后的匹配词进行向量拼接,输入到一个BiLSTM中获得句子的语义表示,再利用CRF将句子进行解码,得到最优标签序列。实验结果表明,该文提出的方法可以对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效确定。
引用
收藏
页码:85 / 92
页数:8
相关论文
共 6 条
[1]   基于JCWA-DLSTM的法律文书命名实体识别方法 [J].
王得贤 ;
王素格 ;
裴文生 ;
李德玉 .
中文信息学报, 2020, (10) :51-58
[2]  
Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation..[J].Fangzhao Wu;Junxin Liu;Chuhan Wu;Yongfeng Huang;Xing Xie.CoRR.2019,
[3]  
Adam: A Method for Stochastic Optimization..[J].Diederik P. Kingma;Jimmy Ba.CoRR.2014,
[4]  
Natural Language Processing (almost) from Scratch.[J].Ronan Collobert;Jason Weston;Léon Bottou;Michael Karlen;Koray Kavukcuoglu;Pavel P. Kuksa.CoRR.2011,
[5]  
面向法律文书的中文命名实体识别方法研究.[D].王礼敏.苏州大学.2018, 01
[6]  
面向中文法律文本的命名实体识别研究.[D].谢云.南京师范大学.2018, 01