东盟十国新闻文本的命名实体识别

被引:8
作者
郑彦斌 [1 ,2 ]
夏志超 [1 ]
郭智 [1 ]
黄永忠 [1 ]
刘文芬 [1 ]
机构
[1] 桂林电子科技大学广西密码学与信息安全重点实验室
[2] 东莞理工学院计算机与网络安全学院
关键词
双向GRU-CRF; 命名实体识别; 东盟十国; 知识图谱;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为构建东盟十国知识图谱,需要对相关文本进行命名实体识别工作。设计一种基于双向GRU-CRF的神经网络模型,对中国驻东盟十国大使馆中文新闻数据进行命名实体识别。以预训练的领域词向量为输入,利用双向GRU网络从向量化的文本中提取语义特征;再通过CRF层预测并输出最优标签序列。为了进一步改善结果,在双向GRU和CRF层之间添加两层隐藏层。在数据预处理方面,提出一种数据集划分算法,对文本进行更加科学合理的划分。在东盟十国数据集上,将该模型与几种混合模型进行对比,结果显示所提模型在人名、地名、组织机构名识别任务中拥有更好的识别性能。
引用
收藏
页码:162 / 168
页数:7
相关论文
共 10 条
[1]   知识图谱技术综述 [J].
徐增林 ;
盛泳潘 ;
贺丽荣 ;
王雅芳 .
电子科技大学学报 , 2016, (04) :589-606
[2]   命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[3]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报 , 2006, (02) :87-94
[4]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[5]  
机器学习[M]. 清华大学出版社 , 周志华, 2016
[6]  
Enhancing of chemical compound and drug name recognition using representative tag scheme and fine-grained tokenization[J] . Hong-Jie Dai,Po-Ting Lai,Yung-Chun Chang,Richard Tzong-Han Tsai. Journal of Cheminformatics . 2015 (S1)
[7]  
Dropout: a simple way to prevent neural networks from overfitting.[J] . Nitish Srivastava,Geoffrey E. Hinton,Alex Krizhevsky,Ilya Sutskever,Ruslan Salakhutdinov. Journal of Machine Learning Research . 2014 (1)
[8]  
Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J] . Alex Graves,Jürgen Schmidhuber. Neural Networks . 2005 (5)
[9]  
An Algorithm that Learns What's in a Name.[J] . Daniel M. Bikel,Richard Schwartz,Ralph M. Weischedel. Machine Learning . 1999 (1-3)
[10]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780