基于条件随机场的古汉语自动断句与标点方法

被引:28
作者
张开旭 [1 ]
夏云庆 [2 ]
宇航 [1 ]
机构
[1] 清华大学计算机科学与技术系
[2] 清华大学清华信息科学与技术国家实验室
关键词
计算机信息处理; 古汉语标点; 条件随机场(CRF);
D O I
10.16511/j.cnki.qhdxxb.2009.10.027
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
引用
收藏
页码:1733 / 1736
页数:4
相关论文
共 5 条