基于边界识别与组合的裁判文书证据抽取方法研究

被引:11
作者
杨健 [1 ]
黄瑞章 [1 ,2 ]
丁志远 [1 ,2 ]
陈艳平 [1 ,2 ]
秦永彬 [1 ,2 ]
机构
[1] 贵州大学计算机科学与技术学院
[2] 贵州大学贵州省公共大数据重点实验室
关键词
裁判文书; 证据抽取; 智慧法院; 边界识别与组合;
D O I
暂无
中图分类号
D926.2 [法院]; TP391.1 [文字信息处理];
学科分类号
030202 [中外政治制度]; 120506 [数字人文];
摘要
裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑"智慧法院"建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,"张X的身份证复印件"中的"身份证复印件",而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。
引用
收藏
页码:80 / 87
页数:8
相关论文
共 10 条
[1]
长文本武侠小说外号识别研究 [J].
唐锋 ;
梁循 ;
赵晓磊 ;
张旋 ;
程恒超 .
中文信息学报, 2019, 33 (08) :132-142
[2]
基于注意机制的化学药物命名实体识别 [J].
杨培 ;
杨志豪 ;
罗凌 ;
林鸿飞 ;
王健 .
计算机研究与发展, 2018, 55 (07) :1548-1556
[3]
基于CNN-BLSTM-CRF模型的生物医学命名实体识别 [J].
李丽双 ;
郭元凯 .
中文信息学报, 2018, 32 (01) :116-122
[4]
基于词向量和条件随机场的领域术语识别方法 [J].
冯艳红 ;
于红 ;
孙庚 ;
赵禹锦 .
计算机应用, 2016, 36 (11) :3146-3151
[5]
深度学习的昨天、今天和明天 [J].
余凯 ;
贾磊 ;
陈雨强 ;
徐伟 .
计算机研究与发展, 2013, 50 (09) :1799-1804
[6]
Jumping NLP Curves: A Review of Natural Language Processing Research[J] Cambria Erik;White Bebo IEEE COMPUTATIONAL INTELLIGENCE MAGAZINE 2014,
[7]
Character convolutions for Arabic Named Entity Recognition with Long Short-Term Memory Networks[J] Muhammad Khalifa;Khaled Shaalan Computer Speech & Language 2019,
[8]
Gradient-based learning applied to document recognition[J] Y. LeCun;L. Bottou;Y. Bengio;P. Haffner Proceedings of the IEEE 1998,
[9]
Long Short-Term Memory[J] Sepp Hochreiter;Jürgen Schmidhuber Neural Computation 1997,
[10]
Collaborative Computing Networking;Applications;and Worksharing Lu J;Ye M;Tang Z;et al; Springer International Publishing 2015,