利用上下文相关信息的汉字文本识别

被引：8

作者：

夏莹，常新功，马少平，朱小燕，金奕江

机构：

[1] 清华大学计算机系

来源：

关键词：

汉字识别，语料库语言学，MARKO∨模型，后处理;

D O I：

暂无

中图分类号：

H087 [数理语言学];

学科分类号：

摘要：

为了改善汉字文本识别率，本文提出了一种基于语料库统计概率的后处理方法，该方法利用上下文相关信息，超过词汇。对于汉字文本识别，把具有确定性边界的一个汉字序列（多数情况为一个句子）作为一个处理单元，利用统计获得的字字同现概率，采用动态规划方法，获得了令人满意的效果。

引用

页码：23 / 30

页数：8