蒙古文变形显现字符到名义字符转换的研究与实现

被引:0
作者
敖登巴拉
机构
[1] 内蒙古大学
关键词
蒙古文; 变形显现字符; 名义字符; 统计语言模型;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着计算机应用技术研究的深入发展,蒙古文信息处理技术也得到了迅速地发展。我国从上世纪70年代末就开始了蒙古文信息处理的研究工作,研究的重点主要集中在蒙古文文字处理方面,文字编码、显示通常是按照字形设计的。但是,蒙古文特有的“同形异音”、“同音异形”现象,使得仅按字形设计的编码方案,已经不能满足蒙古文信息处理更深入的研究。 2000年制定的ISO/IEC10646国际标准编码体系中定义了蒙古文国际标准编码字符集,该字符集定义了35个蒙古文基本字母,也称蒙古文名义字符。名义字符编码方案既考虑了蒙古文字母的读音也考虑了其字形。这种编码方案符合了蒙古文字是拼音文字的特点,并有利于蒙古文信息处理的国际化、标准化。 在实际应用中,蒙古文是用名义字符的变形显现字符表示的。由于早期研究时,蒙古文变形显现字符的编码不统一或录入人员按字形来录入文字,使得现有的蒙古文电子版文档资料中存在大量的拼写错误,主要表现在错误单词与正确单词的字形相同,但计算机内部编码不同,用不同蒙古文文字处理系统得到的文档,无法实现信息的直接交换与共享。将用变形显现字符表示的蒙古文字转换成用正确的名义字符表示,实现蒙古文信息存储的标准化,已成为蒙古文信息处理研究的关键基础性技术问题。 本文使用规则、词典和统计相结合的方法完成了蒙古文字由变形显现字符表示到用名义字符表示的转换工作。由于不同蒙古文信息处理系统的变形显现字符编码方案之间存在差异,本文引用了最小字素编码作为中间编码进行统一转换。本文主要完成的工作分为两个部分:首先研究各种蒙古文变形显现字符编码到最小字素编码之间的转换关系,根据转换关系表将不同编码系统的蒙古文变形显现字符编码统一转换成最小字素编码;其次,采用基于蒙古文正字法词典对照的方法、动词词干词缀切分分别转换的方法、基于统计语言模型的方法综合实现最小字素编码到名义字符编码的转换,实验结果表明,综合运用以上方法提高了转换的正确率,取得了较好的转换效果。
引用
收藏
页数:65
共 28 条
[1]
蒙古文编码转换通用算法研究 [J].
斯·劳格劳 .
内蒙古大学学报(哲学社会科学版), 2009, 41 (02) :133-136
[2]
字符串模式匹配算法的改进 [J].
张国平 ;
徐汶东 .
计算机工程与设计, 2007, (20) :4881-4884
[3]
基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55
[4]
基于语料库的自然语言建模方法研究 [J].
张仰森 ;
曹元大 .
计算机科学, 2004, (05) :176-179
[5]
BM模式匹配改进算法 [J].
李洋 ;
王康 ;
谢萍 .
计算机应用研究, 2004, (04) :58-59
[6]
基于语料库和语料库驱动的词语搭配研究 [J].
卫乃兴 .
当代语言学, 2002, (02) :101-114+157
[7]
统计语言模型能做什么? [J].
黄昌宁 .
语言文字应用, 2002, (01) :77-84
[8]
基于二元接续关系检查的字词级自动查错方法 [J].
张仰森 ;
丁冰青 .
中文信息学报, 2001, (03) :36-43
[9]
N-gram语言模型的数据平滑技术 [J].
徐志明 ;
王晓龙 ;
关毅 .
计算机应用研究, 1999, (07) :37-39+44
[10]
英蒙汉电子词典的研究与设计 [J].
王俊义 ;
敖其尔 ;
姗丹 ;
孟和吉雅 .
内蒙古大学学报(自然科学版), 1999, (03)