基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究

被引：25

作者：

程宁 ^{[1
]}

李斌 ^{[1
,2
]}

葛四嘉 ^{[1
]}

郝星月 ^{[1
]}

冯敏萱 ^{[1
]}

机构：

[1] 南京师范大学文学院

[2] 哈佛大学计量社会科学研究所

来源：

中文信息学报 | 2020年 / 04期

关键词：

古文断句; 分词; 词性标注; BiLSTM-CRF; 古汉语信息处理;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。

引用

页码：1 / 9

页数：9

共 40 条

[1] 基于CRF的先秦汉语分词标注一体化研究
石民
李斌
陈小荷
[J]. 中文信息学报, 2010, 24 (02) : 39 - 45
[2] 基于CRF的先秦汉语分词标注一体化研究
石民
李斌
陈小荷
[J]. 中文信息学报, 2010, 24 (02) : 39 - 45
[3] 基于双向LSTM神经网络模型的中文分词
金宸
李维华
姬晨
金绪泽
郭延哺
[J]. 中文信息学报, 2018, (02) : 29 - 37
[4] 基于双向LSTM神经网络模型的中文分词
金宸
李维华
姬晨
金绪泽
郭延哺
[J]. 中文信息学报, 2018, (02) : 29 - 37
[5] 基于CRFs和词典信息的中古汉语自动分词
王晓玉
李斌
[J]. 数据分析与知识发现 , 2017, (05) : 62 - 70
[6] 基于CRFs和词典信息的中古汉语自动分词
王晓玉
李斌
[J]. 数据分析与知识发现 , 2017, (05) : 62 - 70
[7] 基于深度信念网络的命名实体识别
冯蕴天
张宏军
郝文宁
陈刚
[J]. 计算机科学, 2016, 43 (04) : 224 - 230
[8] 基于深度信念网络的命名实体识别
冯蕴天
张宏军
郝文宁
陈刚
[J]. 计算机科学, 2016, 43 (04) : 224 - 230
[9] 三位一体字标注的汉语词法分析
于江德
胡顺义
余正涛
[J]. 中文信息学报, 2015, 29 (06) : 1 - 7
[10] 三位一体字标注的汉语词法分析
于江德
胡顺义
余正涛
[J]. 中文信息学报, 2015, 29 (06) : 1 - 7

← 1 2 3 4 →