面向特定科技领域的技术和术语识别方法研究

被引:0
作者
冯鸾鸾
机构
[1] 苏州大学
关键词
技术和术语识别; 特定科技领域; 语料库; 子词;
D O I
10.27351/d.cnki.gszhu.2020.002508
年度学位
2020
学位类型
硕士
导师
摘要
近年来,互联网上有着大量的公开信息,有些信息有着巨大的应用价值。其中,特定科技领域(特别是国防科技领域)的专利、技术报告和新闻报道等文献中蕴含着大量有价值的科技信息,抽取这些科技信息有利于我国的国防科技建设。所以,如何快速有效地抽取并利用特定科技领域的信息,是一个值得研究解决的问题。特定科技领域的特殊实体(如技术、术语等)是该领域信息抽取的基础,对该领域中科技类实体间关系的抽取和科技类知识图谱的构建等方面有着重要的研究意义。目前,尽管命名实体识别技术已经日臻成熟,在诸如生物医学等多个领域均有所应用,但面向特定科技领域的技术和术语识别方法与通用领域以及医学领域有着明显区别,并且目前尚未有面向特定科技领域的标注语料资源。因此,本文重点研究特定科技领域的技术和术语识别问题,研究内容分为以下三个方面:(1)针对特定科技领域语料资源匮乏的问题,本文构建了面向特定科技领域的技术和术语语料库。首先,基于该领域的海量国防科技文本,以维基百科中的国防科技领域新技术为基点采集语料,涵盖了新闻、文献(如论文和专利等)和维基百科三种体裁。其次,在分析国防科技文本特点的基础上制定了一系列标注规范,展开了大规模语料标注。再次,对构建的语料库进行了数量统计和质量分析,共标注了 479篇文章,包含24487个句子和33756个技术和术语,标注一致性良好。最后,对比了本文构建的语料库与目前研究常用的语料库,表明其规模可适用于面向特定科技领域的技术和术语识别研究工作。(2)针对传统单词特征难以将技术和术语特点表示完全的问题,提出了基于子词单元和语言学特征的技术和术语识别方法。首先,探索了子词单元在传统序列标注Bi-LSTM+CRF模型上的应用。此外,针对任务的特点提出了适用于技术和术语识别的语言学特征。基于标注语料库的实验结果表明,技术和术语识别的F1值达到71.80%,较基准系统提升了 3.04%,能够较好的识别出面向特定科技领域的技术和术语。(3)针对子词与单词的进一步融合问题,提出了基于子词图网络的技术和术语识别方法。首先,提出了三种单词-子词交互图以更加灵活地获取单词与其子词之间的联系。其中,单词-子词包含图可以捕获单词中每一个子词的语义信息;单词-子词三角图能够获取子词的整体语义信息;单词-子词上下文图可获取单词的上下文信息及其相邻的上下文子词的语义信息。然后,应用图注意力网络模型对三种单词-子词交互图进行建模。基于标注语料库的实验结果表明,提出的三种单词-子词交互图均能够通过子词增强单词的语义表达能力,F1值分别较基准系统提升了 1.57%、1.82%和 0.53%。本文构建面向特定科技领域的技术和术语语料库,并提出有效的技术和术语识别方法,同时探索了图结构在技术和术语识别上的应用,为特定科技领域信息抽取的进一步研究打下基础。
引用
收藏
页数:79
共 18 条
[1]
多神经网络协作的军事领域命名实体识别 [J].
尹学振 ;
赵慧 ;
赵俊保 ;
姚婉薇 ;
黄泽林 .
清华大学学报(自然科学版), 2020, 60 (08) :648-655
[2]
基于自注意力机制的军事命名实体识别 [J].
张晓海 ;
操新文 ;
张敏 .
指挥控制与仿真, 2019, 41 (06) :29-33
[3]
基于多标签的军事领域命名实体识别 [J].
单义栋 ;
王衡军 ;
王娜 .
计算机科学, 2019, 46(S2) (S2) :9-12
[4]
基于句法和语义特征的疾病名称识别 [J].
何云琪 ;
刘苏文 ;
钱龙华 ;
周国栋 .
中国科学:信息科学, 2018, 48 (11) :1546-1557
[5]
基于深度学习的军事命名实体识别方法 [J].
王学锋 ;
杨若鹏 ;
朱巍 .
装甲兵工程学院学报, 2018, 32 (04) :94-98
[6]
基于词性标注的中医症候名语料库 [J].
游正洋 ;
王亚强 ;
舒红平 .
电子技术与软件工程, 2017, (21) :177-178
[7]
汉语篇章微观话题结构建模与语料库构建 [J].
奚雪峰 ;
褚晓敏 ;
孙庆英 ;
周国栋 .
计算机研究与发展, 2017, 54 (08) :1833-1852
[8]
中文模糊限制信息范围语料库的研究与构建 [J].
周惠巍 ;
杨欢 ;
徐俊利 ;
张静 ;
亢世勇 .
中文信息学报, 2017, (03) :77-85
[9]
小粒度策略下基于CRFs的军事命名实体识别方法 [J].
单赫源 ;
张海粟 ;
吴照林 .
装甲兵工程学院学报, 2017, 31 (01) :84-89
[10]
中文电子病历命名实体和实体关系语料库构建 [J].
杨锦锋 ;
关毅 ;
何彬 ;
曲春燕 ;
于秋滨 ;
刘雅欣 ;
赵永杰 .
软件学报, 2016, 27 (11) :2725-2746