基于深度学习的情报学理论及方法术语识别研究

被引:33
作者
王昊 [1 ,2 ]
邓三鸿 [1 ,2 ]
苏新宁 [1 ,2 ]
官琴 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
关键词
情报学; 术语识别; 深度学习; Bi-LSTM-CRFs模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论]; G350 [情报学];
学科分类号
120502 [情报学]; 120506 [数字人文]; 140502 [人工智能];
摘要
理论、方法的研究是学科不断发展前行的动力,了解掌握学科领域当前理论及方法的应用、发展情况是一项十分重要的工作。本文利用命名实体识别任务的分支——术语识别,对情报学理论方法进行研究,通过采集我国近20年来情报学领域相关文献20000篇左右,应用深度学习模型——Bi-LSTM-CRFs进行大规模语料训练与测试,通过实验验证其可行性并探究各实验变量对模型效果的影响,以求最大限度提高模型识别的效果。实验结果表明,对于理论方法术语等复杂实体,基于词切分的语料识别效果要优于基于字切分的语料;术语实体的长度对于识别效果也有一定影响,术语长度过大时(字数≥6),识别效果下降明显;同时,训练语料量与识别效果呈正相关关系,语料量越大,识别效果越好;实体的类型和数量直接影响识别结果,具有明显构词特征的实体识别效果较好;在特征引入实验中发现除拼音特征外,词性、词长以及词向量特征均能够对F1值有所提高,其中词向量和词性特征的提升效果最为明显。
引用
收藏
页码:817 / 828
页数:12
相关论文
共 26 条
[1]
理论术语抽取的深度学习模型及自训练算法研究 [J].
赵洪 ;
王芳 .
情报学报, 2018, (09) :923-938
[2]
基于双向LSTM神经网络电子病历命名实体的识别模型 [J].
杨红梅 ;
李琳 ;
杨日东 ;
周毅 .
中国组织工程研究, 2018, 22 (20) :3237-3242
[3]
命名实体识别研究综述 [J].
刘浏 ;
王东波 .
情报学报, 2018, 37 (03) :329-340
[4]
中国情报学论纲 [J].
包昌火 ;
刘彦君 ;
张婧 ;
靳晓宏 ;
赵芳 ;
吴晨生 .
情报杂志, 2018, 37 (01) :1-8
[5]
我国情报学研究中混合方法的应用及其领域分布分析 [J].
王芳 ;
祝娜 ;
翟羽佳 .
情报学报, 2017, 36 (11) :1119-1129
[6]
术语引用视角下的学科交叉测度——以PLOS ONE上六个学科为例 [J].
徐庶睿 ;
卢超 ;
章成志 .
情报学报, 2017, 36 (08) :809-820
[7]
我国情报学理论的来源、应用及学科专属度研究 [J].
王芳 ;
陈锋 ;
祝娜 ;
杨京 .
情报学报, 2016, (11) :1148-1164
[8]
结合词语规则和SVM模型的军事命名实体关系抽取方法 [J].
单赫源 ;
吴照林 ;
张海粟 ;
刘培磊 .
指挥控制与仿真, 2016, 38 (04) :58-63
[9]
中文专利文献术语自动识别研究 [J].
杨双龙 ;
吕学强 ;
李卓 ;
徐丽萍 .
中文信息学报, 2016, 30 (03) :111-117+124
[10]
基于条件随机场的学术期刊中理论的自动识别方法 [J].
陈锋 ;
翟羽佳 ;
王芳 .
图书情报工作, 2016, 60 (02) :122-128