一种有效的基于Web的双语翻译对获取方法

被引：11

作者：

郭稷 ^{[1
]}

吕雅娟 ^{[2
]}

刘群 ^{[2
]}

机构：

[1] 北京大学软件与微电子学院

[2] 中国科学院计算技术研究所智能信息处理重点实验室

来源：

中文信息学报 | 2008年 / 06期

关键词：

计算机应用; 中文信息处理; 双语翻译对; 统计判别模型; 网络挖掘;

D O I：

暂无

中图分类号：

TP391.2 [翻译机];

学科分类号：

081203 ; 0835 ;

摘要：

命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。

引用

页码：103 / 109

页数：7