《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。