海量法律文书中基于CNN的实体关系抽取技术

被引：75

作者：

高丹

彭敦陆

刘丛

机构：

[1] 上海理工大学光电信息与计算机工程学院

来源：

小型微型计算机系统 | 2018年 / 39卷 / 05期

基金：

上海市自然科学基金;

关键词：

实体关系抽取; 核函数; 相似度; CNN;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

传统文本实体关系抽取算法多数是基于特征向量对单一实体对语句进行处理,缺少考虑文本语法结构及针对多对实体关系的抽取算法.基于此,提出一种基于CNN(Convolutional Neural Network)和改进核函数的多实体关系抽取技术—KMCNN(Multi-Entity Convolutional Neural Network Based on Kernel),并将所提技术运用于海量法律文书的实体关系抽取上.KMCNN从抽取大规模历史法律文书的人物关系出发,构建短语有效子树,采用基于改进的核函数来计算短语有效子树的相似度,以实现运用CNN算法对多对实体关系进行挖掘的目标.在真实数据集上的实验表明,所提技术具有较好的抽取效果和较高的计算效率.

引用

页码：1021 / 1026

页数：6