基于词素的日文分词方法及其在OCR系统中的应用

被引:1
作者
金春实
丁晓青
彭良瑞
刘长松
机构
[1] 北京清华大学电子工程系智能技术与系统国家重点实验室
关键词
分词; 词素; 日文; 词尾变化; OCR检错;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动检错中,日文单词因其动词及形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法,通过建立以词素为基础单位的分词词库,以最大长度优先词条匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于庞大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率;将该方法运用在OCR检错模块,当系统拒识率(即检错模块中认为可疑的字符在总字符中的比例)控制在1/5时,测试集上漏检率为0.05%,说明了该方法的有效性。
引用
收藏
页码:244 / 246+271 +271
页数:4
相关论文
共 1 条
  • [1] 直接序列扩频系统中的一种新PN码跟踪环
    孟高勇
    刘正军
    胡捍英
    [J]. 微计算机信息, 2005, (04) : 184 - 185