一种基于噪声信道模型的汉字识别后处理新方法

被引:6
作者
李元祥
丁晓青
刘长松
机构
[1] 清华大学电子工程系!北京
关键词
汉字识别; 后处理; 语言模型; 扩充候选字; 噪声信道; 方案集成;
D O I
10.16511/j.cnki.qhdxxb.2001.01.007
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。
引用
收藏
页码:24 / 28
页数:5
相关论文
共 3 条
[1]   基于HMM的汉语文本识别后处理研究 [J].
李元祥 ;
丁晓青 ;
刘长松 .
中文信息学报, 1999, (04) :30-35
[2]   一种混合的中文文本校对方法 [J].
于勐 ;
姚天顺 .
中文信息学报, 1998, (02) :32-37
[3]  
信息论基础.[M].傅祖芸编;.电子工业出版社.1989,