面向方志类古籍的多类型命名实体联合自动识别模型构建

被引:16
作者
李娜 [1 ,2 ]
机构
[1] 南京林业大学人文社会科学学院广播电视与新媒体系
[2] 南京林业大学林业遗产与森林环境史研究中心林业史料数字化研究室
关键词
条件随机场; 地方志; 中文古籍整理; 命名实体识别; 联合抽取;
D O I
暂无
中图分类号
G255.1 [善本、线装古籍]; G254 [文献标引与编目];
学科分类号
050104 ; 060202 ; 1205 ; 120501 ;
摘要
方志类古籍是特色典籍,是优秀中华文化的重要载体。命名实体识别是中文古籍文本挖掘与利用的重要环节,对理解古籍内容起到积极作用。文章以数字化的特色馆藏方志农业典籍《方志物产》为研究语料,邀请领域专家制定语料标注标准,并采用交叉互核的方式进行语料标注,构建实体的内外部特征模板,完成基于条件随机场的自动实体识别,实现多类型命名实体的自动抽取。实验结果证明,基于条件随机场的方志类古籍多类型命名实体自动识别模型发挥了较好的性能,其中别名、地名和引用名的识别率较显著,最高正确率分别达95.56%、98.28%和95.56%;人名和用途名的识别效果稍显不足,最高正确率分别为75%和74.04%,验证了条件随机场模型在方志类古籍多类型命名实体识别中的有效性。
引用
收藏
页码:113 / 123
页数:11
相关论文
共 33 条
[1]  
基于历史典籍双语平行语料库的术语对齐研究.[D].李秀英.大连理工大学.2010, 05
[2]  
基于深度学习与主动学习的中医术语识别研究.[D].李焕.北京工业大学.2019, 03
[3]  
基于深度学习的古籍词法分析研究.[D].李成名.南京师范大学.2018, 05
[4]  
基于古文学的命名实体识别的研究与实现.[D].谢韬.北京邮电大学.2018, 11
[5]  
以《汉书》为例的中古汉语自动分词.[D].王嘉灵.南京师范大学.2014, 02
[6]  
基于CRF的古籍地名自动识别研究.[D].王铮.广西民族大学.2008, 12
[7]  
数字人文.[M].大卫·贝里.东北财经大学出版社.2019,
[8]  
数字人文.[M].安妮·伯迪克.中国人民大学出版社.2018,
[9]  
命名实体识别在方志内容挖掘中的应用研究.[M].朱锁玲.中国农业出版社.2017,
[10]  
古籍计算机全文数据库及内容挖掘研究.[M].衡中青; 著.安徽师范大学出版社.2013,