卷积神经网络在古籍汉字识别中的应用实践

被引:14
作者
郭利敏 [1 ]
葛亮 [2 ]
刘悦如 [3 ]
机构
[1] 上海图书馆
[2] 上海宝开软件有限公司
[3] 同济大学图书馆
关键词
智慧图书馆; 人工智能; 卷积神经网络; 数字人文; 古籍汉字识别;
D O I
暂无
中图分类号
G255.1 [善本、线装古籍]; H12 [文字学];
学科分类号
050104 ; 060202 ; 0501 ; 050103 ;
摘要
文章尝试将卷积神经网络用于数字人文古籍汉字的元数据加工,将古籍汉字识别问题转换为卷积神经网络的分类问题,在缺乏训练集的情况下通过数据生成技术构建训练集进行模型训练,并用于古籍汉字的识别。通过TensorFlow平台,对773个汉字生成约24万个训练样本,网络模型可自行判定不可识别的图片;在提高精确率同时,对这部分数据可直接转由人工识别,系统更为可靠,作为数字人文古籍元数据加工的半自动化工具,旨在提高古籍资源在数字人文应用研究中的效率。
引用
收藏
页码:142 / 148
页数:7
相关论文
共 4 条
[1]   基于价值链视角的图书馆古籍文献资源挖掘与利用研究附视频 [J].
张青云 .
图书馆学刊, 2018, (10) :83-86
[2]   中国古典文学数位化的现状及分析 [J].
韩玉凤 .
金华职业技术学院学报, 2017, 17 (01) :61-67
[3]  
Online and offline handwritten Chinese character recognition: Benchmarking on new databases[J] . Cheng-Lin Liu,Fei Yin,Da-Han Wang,Qiu-Feng Wang. Pattern Recognition . 2013 (1)
[4]  
Lexicon-free handwritten word spotting using character HMMs[J] . Andreas Fischer,Andreas Keller,Volkmar Frinken,Horst Bunke. Pattern Recognition Letters . 2011 (7)