大型中文古籍《四库全书》自动版面分析系统

被引：7

作者：

姜哲

马少平

夏莹

机构：

[1] 智能技术与系统国家重点实验室清华大学计算机科学与技术系!北京

来源：

中文信息学报 | 2000年 / 02期

关键词：

四库全书; 中文古籍; 版面分析; 汉字识别;

D O I：

暂无

中图分类号：

TS80 [一般性问题];

学科分类号：

0822 ;

摘要：

《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。

引用

页码：14 / 20

页数：7