共 5 条
基于条件随机场的古汉语自动断句与标点方法
被引:28
作者:
张开旭
[1
]
夏云庆
[2
]
宇航
[1
]
机构:
[1] 清华大学计算机科学与技术系
[2] 清华大学清华信息科学与技术国家实验室
关键词:
计算机信息处理;
古汉语标点;
条件随机场(CRF);
D O I:
10.16511/j.cnki.qhdxxb.2009.10.027
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
引用
收藏
页码:1733 / 1736
页数:4
相关论文