鲁棒的多体印刷英文识别系统的实现

被引:8
作者
伍振军
丁晓青
机构
[1] 清华大学电子工程系
[2] 智能技术与系统国家重点实验室
[3] 智能技术与系统国家重点实验室 北京
[4] 北京
关键词
光学字符识别; 字符切分; 特征提取; 分类器设计; 后处理;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
文章讨论了设计一个实用的多体英文识别系统中解决的主要问题。该系统能识别多达260种字体,包括斜体和黑体等字体,对训练集的识别率达到99%,对实际文本测试的错误率比TH-OCR2000低56%。文章详细阐述了文本行字切分,特征提取和分类器设计,以及后处理所使用的常用技术,对各种技术的特点进行了分析和比较,并提出了一些新的技术。文章对于OCR系统的设计具有一定的指导意义。
引用
收藏
页码:120 / 122
页数:3
相关论文
共 4 条
[1]  
ModifiedQuard-raticDiscriminantFunctionsandtheApplicationtoChineseCharac-terRecognition. FumitakaKimura,KenjiTakashina,ShinjiTsuruoka. IEEE,PAMI . 1987
[2]  
RecognitionofHandwrittenWord:FirstandSecondOrderHiddenMarkovModelBasedAp-proachJ. AlmanKundu,Yanghe,ParamvirBahl. Pattern Recognition . 1989
[3]  
ASpellingCorrectionMethodandItsApplicationtoAnOCRSystemJ. HTakahashi,NItoh,TAmanoetal. Pattern Recognition . 1990
[4]  
Anaccurate and Efficient System for Segmenting Machine-printed Text. YYiLuBHaist,LHarmonetal. U.S.PostalService5thAd-vancedTechnologyConference . 1992