面向多领域先秦典籍的分词词性一体化自动标注模型构建

被引:25
作者
张琪 [1 ]
江川 [2 ]
纪有书 [2 ]
冯敏萱 [3 ]
李斌 [3 ]
许超 [3 ]
刘浏 [2 ]
机构
[1] 南京大学信息管理学院
[2] 南京农业大学信息管理学院
[3] 南京师范大学文学院
关键词
数字人文; 先秦典籍; 古籍智能处理技术; 分词; 词性标注; 深度学习;
D O I
暂无
中图分类号
G255.1 [善本、线装古籍]; TP391.1 [文字信息处理];
学科分类号
050104 ; 060202 ;
摘要
【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。
引用
收藏
页码:2 / 11
页数:10
相关论文
共 12 条