共 14 条
面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究
被引:18
作者:
才让加
[1
,2
]
机构:
[1] 青海师范大学计算机学院
[2] 青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心
来源:
关键词:
汉藏机器翻译;
汉藏双语语料库;
编码;
对齐技术;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。
引用
收藏
页码:157 / 161
页数:5
相关论文