基于非参数贝叶斯模型和深度学习的古文分词研究

被引:19
作者
俞敬松 [1 ]
魏一 [1 ]
张永伟 [2 ]
杨浩 [3 ]
机构
[1] 北京大学软件与微电子学院
[2] 中国社会科学院语言研究所
[3] 北京大学儒藏编纂与研究中心
关键词
古文分词; 非参数贝叶斯模型; 深度学习; 无指导学习; 弱指导学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。
引用
收藏
页码:1 / 8
页数:8
相关论文
共 31 条
[1]   基于中文信息处理的古代汉语分词研究 [J].
邱冰 ;
皇甫娟 .
微计算机信息, 2008, (24) :100-102
[2]   基于中文信息处理的古代汉语分词研究 [J].
邱冰 ;
皇甫娟 .
微计算机信息, 2008, (24) :100-102
[3]   基于BERT的古文断句研究与应用 [J].
俞敬松 ;
魏一 ;
张永伟 .
中文信息学报, 2019, (11) :57-63
[4]   基于BERT的古文断句研究与应用 [J].
俞敬松 ;
魏一 ;
张永伟 .
中文信息学报, 2019, (11) :57-63
[5]   基于CRFs和词典信息的中古汉语自动分词 [J].
王晓玉 ;
李斌 .
数据分析与知识发现, 2017, 1 (05) :62-70
[6]   基于CRFs和词典信息的中古汉语自动分词 [J].
王晓玉 ;
李斌 .
数据分析与知识发现, 2017, 1 (05) :62-70
[7]   基于CRF的古汉语分词标注模型研究 [J].
严顺 .
江苏科技信息, 2016, (08) :10-12
[8]   基于CRF的古汉语分词标注模型研究 [J].
严顺 .
江苏科技信息, 2016, (08) :10-12
[9]   基于先秦语料库的古汉语地名自动识别模型构建研究 [J].
黄水清 ;
王东波 ;
何琳 .
图书情报工作, 2015, (12) :135-140
[10]   基于先秦语料库的古汉语地名自动识别模型构建研究 [J].
黄水清 ;
王东波 ;
何琳 .
图书情报工作, 2015, (12) :135-140