基于BERT的多特征融合农业命名实体识别

被引:67
作者
赵鹏飞 [1 ]
赵春江 [1 ,2 ]
吴华瑞 [2 ,3 ,4 ]
王维 [2 ,3 ]
机构
[1] 山西农业大学工学院
[2] 国家农业信息化工程技术研究中心
[3] 北京农业信息技术研究中心
[4] 北京农业智能装备技术研究中心
基金
国家重点研发计划;
关键词
农业; 命名实体识别; 文本; BERT; 词典特征; BiLSTM;
D O I
暂无
中图分类号
S126 [电子技术、计算机技术在农业上的应用]; TP391.1 [文字信息处理];
学科分类号
082806 [农业信息与电气工程]; 120506 [数字人文];
摘要
命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合BERT(Bidirectional Encoder Representations from Transformers,转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法。通过BERT预训练模型,融合左右两侧语境信息,增强字的语义表示,缓解一词多义的问题;自建农业领域词典,引入双向最大匹配策略,获取分布式词典特征表示,提高模型对罕见或未知实体的识别准确率;利用双向长短时记忆(Bi-directional Long-short Term Memory,BiLSTM)网络获取序列特征矩阵,并通过条件随机场(Conditional Random Field,CRF)模型生成全局最优序列。结合领域专家知识,构建农业语料集,包含5 295条标注语料,5类农业实体。模型在语料集上准确率为94.84%、召回率为95.23%、F1值为95.03%。研究结果表明,该方法能够有效识别农业领域命名实体,识别精准度优于其他模型,具有明显的优势。
引用
收藏
页码:112 / 118
页数:7
相关论文
共 25 条
[1]
基于改进BERT算法的专利实体抽取研究——以石墨烯为例 [J].
李建 ;
靖富营 ;
刘军 .
电子科技大学学报, 2020, (06) :883-890
[2]
基于BERT模型的司法文书实体识别方法 [J].
陈剑 ;
何涛 ;
闻英友 ;
马林涛 .
东北大学学报(自然科学版), 2020, 41 (10) :1382-1387
[3]
加入自注意力机制的BERT命名实体识别模型 [J].
毛明毅 ;
吴晨 ;
钟义信 ;
陈志成 .
智能系统学报, 2020, 15 (04) :772-779
[4]
结合知识图谱与双向长短时记忆网络的小麦条锈病预测 [J].
张善文 ;
王振 ;
王祖良 .
农业工程学报, 2020, 36 (12) :172-178
[5]
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 [J].
吴俊 ;
程垚 ;
郝瀚 ;
艾力亚尔艾则孜 ;
刘菲雪 ;
苏亦坡 .
情报学报, 2020, 39 (04) :409-418
[6]
基于领域词典与CRF双层标注的中文电子病历实体识别 [J].
龚乐君 ;
张知菲 .
工程科学学报, 2020, 42 (04) :469-475
[7]
基于数控机床设备故障领域的命名实体识别 [J].
王欢 ;
朱文球 ;
吴岳忠 ;
何频捷 ;
万烂军 .
工程科学学报, 2020, 42 (04) :476-482
[8]
多神经网络协作的军事领域命名实体识别 [J].
尹学振 ;
赵慧 ;
赵俊保 ;
姚婉薇 ;
黄泽林 .
清华大学学报(自然科学版), 2020, 60 (08) :648-655
[9]
融入自注意力机制的社交媒体命名实体识别 [J].
李明扬 ;
孔芳 .
清华大学学报(自然科学版), 2019, 59 (06) :461-467
[10]
基于CNN-BLSTM-CRF模型的生物医学命名实体识别 [J].
李丽双 ;
郭元凯 .
中文信息学报, 2018, 32 (01) :116-122