面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

被引:18
作者
才让加 [1 ,2 ]
机构
[1] 青海师范大学计算机学院
[2] 青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心
关键词
汉藏机器翻译; 汉藏双语语料库; 编码; 对齐技术;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。
引用
收藏
页码:157 / 161
页数:5
相关论文
共 14 条
[1]   藏语语料库加工方法研究 [J].
才让加 .
计算机工程与应用, 2011, 47 (06) :138-139+146
[2]   藏语语料库词类描述方法研究 [J].
才让加 .
计算机工程与应用, 2011, (04) :146-148
[3]   一种维吾尔语句子相似度算法的研究 [J].
田生伟 ;
吐尔根依布拉音 ;
禹龙 ;
买合木提木合买提 ;
艾山吾买尔 .
计算机工程与应用, 2009, 45 (26) :144-146
[4]   EBMT中高效的维吾尔语单词散列表构造算法 [J].
田生伟 ;
吐尔根依布拉音 ;
禹龙 .
中文信息学报, 2009, 23 (04) :124-128
[5]   藏语语料库词语分类体系及标记集研究 [J].
才让加 .
中文信息学报, 2009, 23 (04) :107-112
[6]   维吾尔语句子边界识别算法的设计与实现 [J].
阿比达·吾买尔 ;
吐尔根·依布拉音 .
新疆大学学报(自然科学版), 2008, (03) :360-363
[7]   面向信息处理的蒙古语规范化研究 [J].
那顺乌日图 ;
淑琴 .
中央民族大学学报(哲学社会科学版), 2007, (06) :115-122
[8]   英文维文人名机器翻译算法的研究与实现 [J].
艾山·吾买尔 ;
吐尔根·伊布拉音 .
新疆大学学报(自然科学版), 2007, (01) :97-101
[9]   多语种翻译词汇的在线自动抽取 [J].
原双庆 ;
李芳 ;
盛焕烨 .
计算机研究与发展, 2004, (05) :843-847
[10]   面向汉英机器翻译的双语语料库的建设及其管理 [J].
常宝宝 ;
詹卫东 ;
张华瑞 .
术语标准化与信息技术, 2003, (01) :28-31