多策略英汉词对齐方法的研究

被引:9
作者
周蓝海
蔡东风
机构
[1] 沈阳航空工业学院自然语言处理研究室
关键词
词对齐; 多策略; 统计机器翻译; 双语词典; 知网; 锚点;
D O I
10.16208/j.issn1000-7024.2009.17.044
中图分类号
TP391.2 [翻译机];
学科分类号
080201 [机械制造及其自动化];
摘要
词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用。词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量。多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法。通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程。实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%。该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补。
引用
收藏
页码:4138 / 4141
页数:4
相关论文
共 2 条
[1]
知网的理论发现 [J].
董振东 ;
董强 ;
郝长伶 .
中文信息学报, 2007, (04) :3-9
[2]
基于锚点词对的双语词对齐算法 [J].
张孝飞 ;
陈肇雄 ;
黄河燕 ;
王建德 .
小型微型计算机系统, 2006, (02) :330-334