基于多特征双向门控神经网络的领域专家实体抽取方法

被引:7
作者
张柯文
李翔
严云洋
朱全银
马甲林
机构
[1] 淮阴工学院计算机与软件工程学院
基金
国家重点研发计划;
关键词
命名实体识别; 自然语言处理; 信息提取; 多特征; 边界特征;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.
引用
收藏
页码:128 / 135
页数:8
相关论文
共 8 条
[1]
领域知识图谱小样本构建与应用 [J].
张华平 ;
吴林芳 ;
张芯铭 ;
商建云 ;
李昌赫 .
人工智能, 2020, (01) :113-124
[2]
面向上下位关系预测的词嵌入投影模型 [J].
汪诚愚 ;
何晓丰 ;
宫学庆 ;
周傲英 .
计算机学报, 2020, 43 (05) :868-883
[3]
基于离群点检测的分类结果置信度的度量方法 [J].
严云洋 ;
瞿学新 ;
朱全银 ;
李翔 ;
赵阳 .
南京大学学报(自然科学), 2019, 55 (01) :102-109
[4]
基于Word2Vec的一种文档向量表示 [J].
唐明 ;
朱磊 ;
邹显春 .
计算机科学, 2016, 43 (06) :214-217+269
[5]
面向自然语言文本的否定性与不确定性信息抽取 [J].
邹博伟 ;
钱忠 ;
陈站成 ;
朱巧明 ;
周国栋 .
软件学报, 2016, 27 (02) :309-328
[6]
在属性级别上处理噪声数据的数据清洗算法 [J].
王石 ;
李玉忱 ;
刘乃丽 ;
王素青 .
计算机工程, 2005, (09) :86-87+227
[7]
Active Learning of Regular Expressions for Entity Extraction.[J] Bartoli Alberto;De Lorenzo Andrea;Medvet Eric;Tarlao Fabiano IEEE transactions on cybernetics 2018,
[8]
Named Entity Recognition using Hidden Markov Model (HMM)[J] Sudha Morwal;Nusrat Jahan;Deepti Chopra;Banasthali University;India International Journal on Natural Language Computing(IJNLC) 2012,