共 4 条
一种基于层叠CRF的古文断句与句读标记方法
被引:12
作者:
张合
[1
]
王晓东
[1
]
杨建宇
[2
]
周卫东
[3
]
机构:
[1] 河南师范大学计算机与信息技术学院
[2] 北京得意音通技术有限责任公司
[3] 北京交通大学信息所
来源:
关键词:
古汉语;
层叠条件随机场;
数据稀疏;
断句;
句读标注;
D O I:
暂无
中图分类号:
TP391.41 [];
学科分类号:
080203 ;
摘要:
针对利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题,设计了一种六字位标记集,提出了一种基于层叠式CRF模型的古文断句与句读标记方法。基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记。实验在5M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%。
引用
收藏
页码:3326 / 3329
页数:4
相关论文