基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

被引:18
作者
朱丹浩 [1 ,2 ]
杨蕾 [3 ]
王东波 [4 ]
机构
[1] 江苏警官学院图书馆
[2] 南京大学计算机科学与技术系
[3] 南京交通技师学院中(高)职教育处
[4] 南京农业大学信息科学技术学院
关键词
机构名识别; 循环神经网络; 深度学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。
引用
收藏
页码:36 / 43
页数:8
相关论文
共 12 条
[1]   基于条件随机场的学术期刊中理论的自动识别方法 [J].
陈锋 ;
翟羽佳 ;
王芳 .
图书情报工作, 2016, 60 (02) :122-128
[2]   面向项目申请书的命名实体抽取模型构建研究 [J].
王文龙 ;
王东波 .
情报资料工作, 2015, (01) :30-34
[3]   用户查询日志中的中文机构名识别 [J].
关晓炟 ;
吕学强 ;
李卓 ;
郑略省 .
现代图书情报技术, 2014, (01) :72-78
[4]   产品命名实体特征选择与识别研究 [J].
陆伟 ;
鞠源 ;
张晓娟 ;
吴丹 .
图书情报知识 , 2012, (03) :4-12+34
[5]   跨语言信息检索中的命名实体识别与翻译 [J].
吴丹 ;
何大庆 ;
陆伟 .
图书情报知识 , 2012, (03) :13-19
[6]   基于规则和统计相结合的中文命名实体识别研究 [J].
潘正高 .
情报科学, 2012, 30 (05) :708-712+786
[7]   基于文献的中文命名实体识别算法适用性分析研究 [J].
滕青青 ;
吉久明 ;
郑荣廷 ;
李楠 .
情报杂志, 2010, (09) :157-161+169
[8]   基于SVM和CRF的双层模型中文机构名识别 [J].
黄德根 ;
李泽中 ;
万如 .
大连理工大学学报, 2010, 50 (05) :782-787
[9]   命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[10]   中文组织机构名称与简称的识别 [J].
沈嘉懿 ;
李芳 ;
徐飞玉 ;
Hans Uszkoreit .
中文信息学报, 2007, (06) :17-21