基于深度学习的专业领域术语识别系统设计与实现

被引：0

作者：

陈睿

机构：

[1] 北京邮电大学

关键词：

自然语言处理; 神经网络; 术语提取; 术语分类;

D O I：

暂无

年度学位：

2019

学位类型：

硕士

导师：

许长桥;

摘要：

随着移动互联网技术与信息技术的高速发展,传统的纸质文献正在逐步被电子文献取代,这种进步在极大程度上减少了科研人员在获取文献资料时需要投入的时间与精力。专业领域术语识别是一项从特定专业领域的文本语料库中发现该领域专业词汇的任务,对电子文献的语义分析以及文本语料库的快速检索都具有重要意义。当前主流的专业领域术语识别过程主要依靠统计学和语言学的结合来完成术语的提取与识别过程,好的识别方法往往来源于几种简单的术语识别算法的结合。目前的术语识别技术主要依赖于传统的统计学方法,一些研究人员已经开始探究深度神经网络在术语识别过程中的应用,但尚未形成完整的可操作系统。因此,本文基于深度学习技术,设计并实现了一个可扩展、可灵活实施的专业领域术语识别系统。本文主要包括以下几方面工作:(1)基于N-gram模型对原始文本进行预处理,将完整的文章用特殊标识切分成细小的文字片段。(2)提出了一种基于注意力机制的双向长短期记忆神经网络模型提取文字片段中的术语,并引入条件随机场模型提升网络对长单词的识别准确率。(3)基于信息熵提出了一种术语可信度计算方法,提升系统对当前专业领域术语的识别准确率。(4)引入字向量模型和支持向量机(SVM)对提取出的术语自动分类。实验结果显示,本系统能够有效地从原始文本中自动提取专业领域术语,并依据原有术语库对提取结果进行分类,能够大幅度地减少构建术语库过程中的人工操作。

引用

页数：72

共 15 条

[1]

利用URL-Key领域术语识别方法 [J].

吕书宁 ;

董志安 .

北京大学学报(自然科学版), 2018, 54 (02) :262-270

[2]

改进最小二乘支持向量机电量预测算法 [J].

杨柳 ;

吴延琳 ;

张超 ;

刘超 ;

蒋勃 ;

张鹏 .

电网与清洁能源, 2017, 33 (03) :71-76

[3]

科技项目查重系统构建研究 [J].

张新民 ;

张爱霞 ;

郑彦宁 .

情报学报, 2016, (09) :917-922

[4]

基于支持向量机的遥感图像分类研究综述 [J].

王振武 ;

孙佳骏 ;

于忠义 ;

卜异亚 .

计算机科学, 2016, 43 (09) :11-17+31

[5]

基于支持向量机的分类辨识方法及应用 [J].

马相东 ;

卢占庆 ;

谭永彦 ;

王秀英 .

控制工程, 2016, 23 (05) :768-772

[6]

基于粒子群算法的决策树SVM多分类方法研究 [J].

王道明 ;

鲁昌华 ;

蒋薇薇 ;

肖明霞 ;

李必然 .

电子测量与仪器学报, 2015, 29 (04) :611-615

[7]

SNOMED CT术语分类体系设定学科背景的探讨 [J].

郭玉峰 ;

刘保延 ;

尹爱宁 .

世界科学技术-中医药现代化, 2007, (04) :86-90

[8]

领域术语自动抽取及其在文本分类中的应用 [J].

刘桃 ;

刘秉权 ;

徐志明 ;

王晓龙 .

电子学报, 2007, (02) :328-332

[9]

中文金融新闻中公司名的识别 [J].

王宁 ;

葛瑞芳 ;

苑春法 ;

黄锦辉 ;

李文捷 .

中文信息学报, 2002, (02) :1-6

[10]

Hidden Markov model using Dirichlet process for de-identification.[J].Tao Chen;Richard M. Cullen;Marshall Godwin.Journal of Biomedical Informatics.2015, S

← 1 2 →