利用上下文相关信息的汉字文本识别

被引:8
作者
夏莹,常新功,马少平,朱小燕,金奕江
机构
[1] 清华大学计算机系
关键词
汉字识别,语料库语言学,MARKO∨模型,后处理;
D O I
暂无
中图分类号
H087 [数理语言学];
学科分类号
摘要
为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,获得了令人满意的效果。
引用
收藏
页码:23 / 30
页数:8
相关论文
empty
未找到相关数据