融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究

被引:17
作者
任秋彤
王昊
熊欣
范涛
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
基金
中央高校基本科研业务费专项资金资助;
关键词
传统戏剧; 术语识别; 图卷积网络; 远距离约束;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; J805 [戏剧评论、欣赏];
学科分类号
120506 [数字人文]; 130301 [戏剧戏曲学];
摘要
【目的】针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。【方法】首先从术语类别、语义结构和文本长度上分析戏剧语言特征。根据以上语言特征,以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入词性和领域特征。之后在BiLSTM后加入图卷积网络(GCN),更好地捕捉句子中远距离词语的约束关系。【结果】融合GCN和外部特征的术语抽取模型F1值达到91.11%,比主流的BERT-BiLSTM-CRF高出1.3个百分点。【局限】仅选择百度百科、非遗官网作为实验数据来源,并未验证将模型扩展到其他来源的自由文本中的识别效率。戏剧术语中某些类别的训练集偏少,且实验数据和模型中外部特征的选择不够全面。【结论】本文根据传统戏剧语言特征,提出一种融合GCN和外部特征的戏剧术语抽取模型,构建了传统戏剧术语库,并将模型应用于术语库的扩充,为后续构建传统戏剧知识图谱打下基础。
引用
收藏
页码:123 / 136
页数:14
相关论文
共 22 条
[1]
面向特定科技领域的技术和术语识别方法研究 [D]. 
冯鸾鸾 .
苏州大学,
2020
[2]
基于深度学习的专业领域术语识别系统设计与实现 [D]. 
陈睿 .
北京邮电大学,
2019
[3]
LSTM-CRF for Drug-Named Entity Recognition [J].
Zeng, Donghuo ;
Sun, Chengjie ;
Lin, Lei ;
Liu, Bingquan .
ENTROPY, 2017, 19 (06)
[4]
Bidirectional LSTM-CRF Models for Sequence Tagging..[J].Zhiheng Huang;Wei Xu;Kai Yu 0001.CoRR.2015,
[5]
基于图卷积神经网络的中文实体关系联合抽取 [J].
张军莲 ;
张一帆 ;
汪鸣泉 ;
黄永健 .
计算机工程, 2021, 47 (12) :103-111
[6]
非物质文化遗产传统音乐术语自动抽取 [J].
刘浏 ;
秦天允 ;
王东波 .
数据分析与知识发现, 2020, (12) :68-75
[7]
基于深度学习的情报学理论及方法术语识别研究 [J].
王昊 ;
邓三鸿 ;
苏新宁 ;
官琴 .
情报学报, 2020, (08) :817-828
[8]
基于BERT-BiLSTM-CRF模型的中文实体识别 [J].
谢腾 ;
杨俊安 ;
刘辉 .
计算机系统应用, 2020, 29 (07) :48-55
[9]
基于GCN和Bi-LSTM的微博立场检测方法 [J].
杨顺成 ;
李彦 ;
赵其峰 .
重庆理工大学学报(自然科学), 2020, 34 (06) :167-173
[10]
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 [J].
吴俊 ;
程垚 ;
郝瀚 ;
艾力亚尔艾则孜 ;
刘菲雪 ;
苏亦坡 .
情报学报, 2020, 39 (04) :409-418