基于最小生成树聚类的中文版面分割法

被引:2
作者
张充
苗秀芬
司建辉
史青宣
田学东
机构
[1] 河北大学数学与计算机学院
关键词
版面分割; 游程平滑; 最小生成树聚类;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
针对中文版面多横竖混排的特点,提出一种基于最小生成树聚类的版面分割方法。对原图像进行水平和垂直游程平滑,并对平滑后所得的连通域进行预分类处理,将文本进行横排、竖排分类。对预分类后的各类文本采用最小生成树聚类算法进行聚类处理。经实验,准确率达97%。实验表明,该方法对中文文档有良好的分割效果。
引用
收藏
页码:211 / 213
页数:3
相关论文
共 3 条
[1]   Page segmentation of Chinese newspapers [J].
Xi, J ;
Hu, JM ;
Wu, LD .
PATTERN RECOGNITION, 2002, 35 (12) :2695-2704
[2]   复杂中文报纸的版面分析、理解和重构 [J].
陈明 ;
丁晓青 ;
梁健 .
清华大学学报(自然科学版), 2001, (01) :29-32+59
[3]  
算法与数据结构.[M].傅清祥;王晓东编著;.电子工业出版社.1998,