藏文数词识别与翻译

被引:7
作者
孙萌 [1 ,2 ]
华却才让 [3 ]
刘凯 [1 ]
吕雅娟 [1 ]
刘群 [1 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
[3] 青海师范大学藏文信息研究中心
关键词
藏文; 数词基本构件; 自动机; 数词识别; 数词翻译;
D O I
10.13209/j.0479-8023.2013.012
中图分类号
TP391.2 [翻译机];
学科分类号
摘要
通过对藏文数词内部构词规律及外部边界信息进行分析,提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界,然后通过有限自动机模型识别并翻译基本数词,最后用模板匹配算法处理复杂数词。结果表明,提出的方法对数词识别与翻译的F值达到98.73%,在藏汉机器翻译的测试集上的BLEU提高了2.64%。
引用
收藏
页码:75 / 80
页数:6
相关论文
共 5 条
[1]   SegT:一个实用的藏文分词系统 [J].
刘汇丹 ;
诺明花 ;
赵维纳 ;
吴健 ;
贺也平 .
中文信息学报, 2012, 26 (01) :97-103
[2]   回顾藏文信息处理技术的发展 [J].
高定国 ;
关白 .
西藏大学学报(社会科学版), 2009, 24 (03) :18-27
[3]   藏文自动分词系统中紧缩词的识别 [J].
才智杰 .
中文信息学报, 2009, (01) :35-37+43
[4]   藏文自动分词系统的设计与实现 [J].
陈玉忠 ;
李保利 ;
俞士汶 .
中文信息学报, 2003, (03) :15-20+65
[5]   Hierarchical phrase-based translation [J].
Chiang, David .
COMPUTATIONAL LINGUISTICS, 2007, 33 (02) :201-228