理论术语抽取的深度学习模型及自训练算法研究

被引:47
作者
赵洪
王芳
机构
[1] 南开大学商学院信息资源管理系
关键词
理论术语抽取; 深度学习; 循环神经网络; Bi-LSTM-CRF; 自训练;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。
引用
收藏
页码:923 / 938
页数:16
相关论文
共 16 条
[1]   术语引用视角下的学科交叉测度——以PLOS ONE上六个学科为例 [J].
徐庶睿 ;
卢超 ;
章成志 .
情报学报, 2017, 36 (08) :809-820
[2]   我国情报学理论的来源、应用及学科专属度研究 [J].
王芳 ;
陈锋 ;
祝娜 ;
杨京 .
情报学报, 2016, 35 (11) :1148-1164
[3]   基于条件随机场的学术期刊中理论的自动识别方法 [J].
陈锋 ;
翟羽佳 ;
王芳 .
图书情报工作, 2016, 60 (02) :122-128
[4]   我国情报学研究中理论的应用:基于《情报学报》的内容分析 [J].
王芳 ;
史海燕 ;
纪雪梅 .
情报学报, 2015, (06) :581-591
[5]   基于CRF和半监督学习的中文时间信息抽取 [J].
闫紫飞 ;
姬东鸿 .
计算机工程与设计, 2015, 36 (06) :1642-1646
[6]   基于词向量特征的循环神经网络语言模型 [J].
张剑 ;
屈丹 ;
李真 .
模式识别与人工智能, 2015, 28 (04) :299-305
[7]   面向引用关系的引文内容标注框架研究 [J].
陆伟 ;
孟睿 ;
刘兴帮 .
中国图书馆学报, 2014, 40 (06) :93-104
[8]   针对中文学术文献的情报方法术语抽取 [J].
化柏林 .
现代图书情报技术, 2013, (06) :68-75
[9]   基于半监督CRF的缩略词扩展解释识别 [J].
陈季梦 ;
刘杰 ;
黄亚楼 ;
刘天笔 ;
刘才华 .
计算机工程, 2013, 39 (04) :203-209
[10]   SOVA算法对Viterbi算法的修正 [J].
杨建祖 ;
顾小卓 ;
杜晓宁 ;
胡捍英 .
通信技术, 2007, (04) :4-6