基于BiLSTM-IDCNN-CRF模型的生态治理技术领域命名实体识别

被引:18
作者
蒋翔 [1 ,2 ,3 ]
马建霞 [1 ,2 ]
袁慧 [4 ]
机构
[1] 中国科学院西北生态环境资源研究院
[2] 中国科学院兰州文献情报中心
[3] 中国科学院大学经济与管理学院图书情报与档案管理系
[4] 中国移动通信集团北京有限公司
基金
国家重点研发计划;
关键词
命名实体识别; 自然语言处理; 生态治理技术; 神经网络; 字嵌入;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在生态治理技术领域中,有大量的文献数据没有得到充分的开发与利用。提出基于字嵌入的BiLSTM-IDCNN-CRF模型,结合BiLSTM网络和IDCNN网络获取到的不同粒度的特征。在生态治理技术数据集中取得的F1值为0.720 7,均高于现有主流模型取得的成绩。实验验证了字嵌入方法的有效性和模型的性能,同时也为其他文本书写规范不统一且专业性较强的领域命名实体识别提供了思路。
引用
收藏
页码:134 / 141
页数:8
相关论文
共 19 条
  • [1] Maximum entropy markov models for information extraction and segmentation . Mccallum A,Freitag D,Pereira F C N. International Conference on Machine Learning . 2000
  • [2] Message Understand in g Conference-6:a brief history . Sundheim B. Conference on Computational Linguistics . 1996
  • [3] Relation Classification via Convolutional Deep Neural Network . Zeng D,Liu K,Lai S. International conference on computational linguistics . 2014
  • [4] Conditional random fields: probabilistic models for segmenting and labeling sequence data . Lafferty J,McCallum A,Pereira F. Proceedings of the Eighteenth International Conference on Machine Learning . 2001
  • [5] A hierarchical approach to wrapper induction . Ion Muslea,Steve Minton,Craig Knoblock. Proceedings of the Third International Conference on Autonomous Agents . 1999
  • [6] Background subtraction techniques:a review . Massimo Piccardi. Systems, Man and Cybernetics,2004 IEEE International Conference on . 2004
  • [7] Bayesian information extraction network . Peshkin L,Pfeffer A. Computer Science . 2003
  • [8] TensorFlow:A System for Large-Scale Machine Learning . Abadi M,Barham P,Chen J. Operating Systems Design and Implementation . 2016
  • [9] Bidirectional LSTM-CRF models for sequence tagging[EB] . Huang Z,Xu W,Yu K. . 2015
  • [10] LSTM-CRF for Drug-Named Entity Recognition
    Zeng, Donghuo
    Sun, Chengjie
    Lin, Lei
    Liu, Bingquan
    [J]. ENTROPY, 2017, 19 (06)