学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于非参数贝叶斯模型和深度学习的古文分词研究
被引:19
作者
:
论文数:
引用数:
h-index:
机构:
俞敬松
[
1
]
论文数:
引用数:
h-index:
机构:
魏一
[
1
]
张永伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国社会科学院语言研究所
北京大学软件与微电子学院
张永伟
[
2
]
论文数:
引用数:
h-index:
机构:
杨浩
[
3
]
机构
:
[1]
北京大学软件与微电子学院
[2]
中国社会科学院语言研究所
[3]
北京大学儒藏编纂与研究中心
来源
:
中文信息学报
|
2020年
/ 06期
关键词
:
古文分词;
非参数贝叶斯模型;
深度学习;
无指导学习;
弱指导学习;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
TP18 [人工智能理论];
学科分类号
:
081203 ;
0835 ;
081104 ;
0812 ;
1405 ;
摘要
:
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。
引用
收藏
页码:1 / 8
页数:8
相关论文
共 31 条
[31]
Tri-Training: Exploiting Unlabeled Data Using Three Classifiers. Zhi-Hua Zhou,Ming Li. IEEE Transactions on Knowledge and Data Engineering . 2005
←
1
2
3
4
→
共 31 条
[31]
Tri-Training: Exploiting Unlabeled Data Using Three Classifiers. Zhi-Hua Zhou,Ming Li. IEEE Transactions on Knowledge and Data Engineering . 2005
←
1
2
3
4
→