EBMT中高效的维吾尔语单词散列表构造算法

被引:3
作者
田生伟 [1 ]
吐尔根依布拉音 [1 ]
禹龙 [2 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 新疆大学网络中心
关键词
计算机应用; 中文信息处理; EBMT; 散列; 平均查找长度; 次优树;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,如何快速地从海量实例模式库中找出与待翻译句子相似的候选实例,是EBMT研究的关键技术之一。统计分析维吾尔语单词字母的分布特征,构造了基于维吾尔语单词的倒排索引散列表,在等概率条件下,平均查找长度为1.59;依据散列冲突的同义词在维吾尔语料中出现的频率作为权值,提出了一种新颖的解决散列冲突的算法:同义词次优树算法。实验显示,算法的性能比传统的顺序查找和二分查找算法分别高出了27.5%,21.8%,证明了该算法在EBMT中有较高的检索效率。
引用
收藏
页码:124 / 128
页数:5
相关论文
共 9 条
[1]   语料库语言学与翻译研究 [J].
刘康龙 ;
穆雷 .
中国翻译, 2006, 27 (01) :59-64
[2]   多策略机器翻译系统IHSMTS中候选实例模式检索算法 [J].
张孝飞 ;
陈肇雄 ;
黄河燕 ;
代六玲 .
小型微型计算机系统, 2005, (03) :330-334
[3]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109
[4]   IHSMTS中实例模式获取机制的设计与实现 [J].
黄河燕 ;
陈肇雄 ;
胡曾剑 .
计算机研究与发展, 2002, (05) :588-592
[5]   基于实例的汉英机器翻译系统研究与实现 [J].
王长胜 ;
刘群 ;
不详 .
计算机工程与应用 , 2002, (08) :126-127+135
[6]   一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[7]  
一种支持高效检索的实时更新倒排索引策略.[J].李栋;史晓东;.情报学报.2006, 01
[8]  
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.1997,
[9]  
英汉机器翻译系统关键技术研究.[D].郭永辉.解放军信息工程大学.2006, 06