面向数字人文的古诗文本情感术语抽取与应用研究

被引:27
作者
张卫
王昊
邓三鸿
张宝隆
机构
[1] 南京大学信息管理学院
关键词
数字人文; 古诗; 情感术语抽取; 汉字语言特征; Char2Vec; BERT;
D O I
10.13530/j.cnki.jlis.2021033
中图分类号
TP391.1 [文字信息处理]; I207.22 [诗歌];
学科分类号
081203 ; 0835 ; 0501 ;
摘要
在跨学科知识范式下,数字人文的研究范畴随着自身学科体系的拓展而不断泛化,采取关键语义技术解析文化对象中的人文内涵与情感知识对于重拾学科"人文性"与"计算性"特质具有重要意义。本文以古诗文本为例,面向汉语诗文及其鉴赏实现大规模人文情感术语的自动化抽取与分析。首先在无标注集环境下提出一种基于"冷启动"的字序列自动标引方法来获取学习语料,随后在字向量(Char2Vec)指导下将汉字特征(部首、拼音等)和BERT语言学模型分别引入机器学习与深度学习模型,并从知识发现的角度定义新术语识别规则。研究发现,将现代鉴赏融入古诗原文显著优化了情感知识的广度与深度,领域术语能够被有效标引。训练的BERT-BiLSTM-CRFs深度学习模型的效果明显优于CRFs机器学习,最佳F1与F1distinct可分别达到95.63%和85.43%;同时汉字特征的引入也有效提升了传统CRFs效果,以领域特征和基于"竖心旁""心字底"部首约束特征为最优。相较于机器学习抽取出的长篇幅新术语,深度学习能够拓展出更多寄托情感知识的新意象词。源于诗文与鉴赏的情感术语为文学信息资源的情感分析与知识服务提供了参考(人文性),基于汉字语言特征的抽取方案为中文领域自然语言处理技术的深化提供了启迪(计算性)。图11。表6。参考文献30。
引用
收藏
页码:113 / 131
页数:19
相关论文
共 26 条
[1]   基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 [J].
吴俊 ;
程垚 ;
郝瀚 ;
艾力亚尔艾则孜 ;
刘菲雪 ;
苏亦坡 .
情报学报, 2020, 39 (04) :409-418
[2]   领域情感词典构建方法研究 [J].
李枫林 ;
范雅娴 .
图书馆理论与实践, 2019, (12) :60-65+112
[3]   从“书友沙龙”探索用户知识资源的开发应用 [J].
陶幼琴 .
图书馆杂志, 2019, 38 (12) :67-71
[4]   基于深度学习的情报分析方法识别研究——以安全情报领域为例 [J].
肖连杰 ;
孟涛 ;
王伟 ;
吴志祥 .
数据分析与知识发现, 2019, 3 (10) :20-28
[5]   人文计算与数字人文:概念、问题、范式及关键环节 [J].
黄水清 .
图书馆建设, 2019, (05) :68-78
[6]   基于领域情感词典特征表示的细粒度意见挖掘 [J].
郁圣卫 ;
卢奇 ;
陈文亮 .
中文信息学报, 2019, 33 (02) :112-121
[7]   基于深度学习的领域情感词典自动构建——以金融领域为例 [J].
胡家珩 ;
岑咏华 ;
吴承尧 .
数据分析与知识发现 , 2018, (10) :95-102
[8]   数字人文的技术体系与理论结构探讨 [J].
刘炜 ;
叶鹰 .
中国图书馆学报, 2017, 43 (05) :32-41
[9]   基于迁移学习的唐诗宋词情感分析 [J].
吴斌 ;
吉佳 ;
孟琳 ;
石川 ;
赵惠东 ;
李仪清 .
电子学报, 2016, 44 (11) :2780-2787
[10]   情感词典构建综述 [J].
梅莉莉 ;
黄河燕 ;
周新宇 ;
毛先领 .
中文信息学报, 2016, (05) :19-27