汉英双语库自动分段对齐研究

被引:42
作者
王斌
刘群
张祥
机构
[1] 中国科学院计算技术研究所!北京
关键词
自然语言处理; 双语库; 对齐; 分段; 锚点;
D O I
暂无
中图分类号
学科分类号
摘要
双语库对齐是自然语言处理研究的重要课题之一 .其中 ,双语库段落对齐是指找出源文和译文中对应的翻译段落的对齐过程 .它上承篇章对齐 ,下接句子对齐 ,在整个双语库的对齐中起着承上启下的重要作用 .但由于种种原因 ,双语库段落对齐在当今研究中没有受到应有的重视 .直接进行通用的段落自动对齐具有相当的难度 ,也不必要 ,鉴于此 ,提出将段落对齐转化成分段对齐进行实现 .通过汉英词汇对之间的特征比较 ,首先找到可以用于汉英双语库分段的锚点词汇对 ,在此基础上 ,通过锚点词所在句子的匹配获得锚点句子对来进行分段 .实验结果表明 ,该方法具有良好的使用价值 ,可以用于其他语言对的对齐
引用
收藏
页码:1547 / 1553
页数:7
相关论文
共 4 条
[1]
Learning translation templates from examples[J] Halil Altay Güvenir;Ilyas Cicekli Information Systems 1998,
[2]
Bilingual Sentence Alignment: Balancing Robustness and Accuracy[J] Michel Simard;Pierre Plamondon Machine Translation 1998,
[3]
Large-scale automatic extraction of an English-Chinese translation lexicon[J] Dekai Wu;Xuanyin Xia Machine Translation 1995,
[4]
A method for disambiguating word senses in a large corpus[J] William A. Gale;Kenneth W. Church;David Yarowsky Computers and the Humanities 1992,