一种基于层叠CRF的古文断句与句读标记方法

被引:12
作者
张合 [1 ]
王晓东 [1 ]
杨建宇 [2 ]
周卫东 [3 ]
机构
[1] 河南师范大学计算机与信息技术学院
[2] 北京得意音通技术有限责任公司
[3] 北京交通大学信息所
关键词
古汉语; 层叠条件随机场; 数据稀疏; 断句; 句读标注;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
针对利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题,设计了一种六字位标记集,提出了一种基于层叠式CRF模型的古文断句与句读标记方法。基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记。实验在5M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%。
引用
收藏
页码:3326 / 3329
页数:4
相关论文
共 4 条
[1]   基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[2]   基于前后文n-gram模型的古汉语句子切分 [J].
陈天莹 ;
陈蓉 ;
潘璐璐 ;
李红军 ;
于中华 .
计算机工程, 2007, (03) :192-193+196
[3]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[4]   唐宋诗之计算机辅助深层研究 [J].
胡俊峰 ;
俞士汶 .
北京大学学报(自然科学版), 2001, (05) :727-733