基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究

被引:57
作者
吴俊 [1 ]
程垚 [1 ]
郝瀚 [1 ]
艾力亚尔艾则孜 [2 ]
刘菲雪 [1 ]
苏亦坡 [1 ]
机构
[1] 北京邮电大学经济管理学院
[2] 深圳暴风智能科技有限公司
基金
国家重点研发计划;
关键词
BERT; BiLSTM; CRF; 专业术语抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。
引用
收藏
页码:409 / 418
页数:10
相关论文
共 13 条
[1]   基于BERT嵌入的中文命名实体识别方法 [J].
杨飘 ;
董文永 .
计算机工程, 2020, 46 (04) :40-45+52
[2]   基于BiLSTM-CRF的商情实体识别模型 [J].
张应成 ;
杨洋 ;
蒋瑞 ;
全兵 ;
张利君 ;
任晓雷 .
计算机工程, 2019, 45 (05) :308-314
[3]   基于词向量预训练的不平衡文本情绪分类 [J].
林怀逸 ;
刘箴 ;
柴玉梅 ;
刘婷婷 ;
柴艳杰 .
中文信息学报, 2019, 33 (05) :132-142
[4]   基于双向LSTM的军事命名实体识别 [J].
李健龙 ;
王盼卿 ;
韩琪羽 .
计算机工程与科学, 2019, 41 (04) :713-718
[5]   基于LSTM-CRF的中医医案症状术语识别 [J].
李明浩 ;
刘忠 ;
姚远哲 .
计算机应用, 2018, 38(S2) (S2) :42-46
[6]   基于BiLSTM-CRF模型的汉语否定信息识别 [J].
陈世梅 ;
伍星 ;
唐凡 .
中文信息学报, 2018, (11) :55-61
[7]   基于BiLSTM-CRF的关键词自动抽取 [J].
陈伟 ;
吴友政 ;
陈文亮 ;
张民 .
计算机科学, 2018, 45(S1) (S1) :91-96+113
[8]   基于网络文本的汉语多词表达抽取方法 [J].
龚双双 ;
陈钰枫 ;
徐金安 ;
张玉洁 .
山东大学学报(理学版), 2018, 53 (09) :40-48
[9]   基于CNN-BLSTM-CRF模型的生物医学命名实体识别 [J].
李丽双 ;
郭元凯 .
中文信息学报, 2018, 32 (01) :116-122
[10]   基于风险短语自动抽取的上市公司风险识别方法及可视化研究 [J].
胡小荣 ;
姚长青 ;
高影繁 .
情报学报, 2017, 36 (07) :663-668