数字人文下的典籍深度学习实体自动识别模型构建及应用研究

被引:25
作者
杜悦 [1 ]
王东波 [1 ]
江川 [1 ]
徐润华 [2 ]
李斌 [3 ]
许超 [3 ]
徐晨飞 [4 ]
机构
[1] 不详
[2] 南京农业大学信息科学技术学院
[3] 不详
[4] 金陵科技学院人文学院
[5] 南京师范大学文学院
[6] 南通大学经济与管理学院
[7] 不详
关键词
数字人文; 深度学习; 命名实体识别; 先秦典籍;
D O I
10.13266/j.issn.0252-3116.2021.03.013
中图分类号
I206.2 [古代文学(~1840年)]; TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。
引用
收藏
页码:100 / 108
页数:9
相关论文
共 14 条