无双语词典的英汉词对齐

被引:30
作者
吕学强
吴宏林
姚天顺
机构
[1] 北京大学信息科学技术学院计算语言学研究所
[2] 东北大学信息科学与工程学院计算机软件与理论研究所
[3] 东北大学信息科学与工程学院计算机软件与理论研究所 北京
[4] 沈阳
关键词
自然语言处理; 双语语料库; 词对齐; 最小求交; 最小求差;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
该文提出了一种基于语料库的无双语词典的英汉词对齐模型 .它把自然语言的句子形式化地表示为集合 ,通过集合的交运算和差运算实现单词对齐 ,同时还考虑了词序和重复词的影响 .该模型不仅能对齐高频单词 ,而且能对齐低频单词 ,对未登录词和汉语分词错误具有兼容能力 .该模型几乎不需要任何语言学知识和语言学资源 ,使语料库方法可独立应用 .实验表明 ,同质语料规模越大 ,词对齐的正确率和召回率越高 .
引用
收藏
页码:1036 / 1045
页数:10
相关论文
共 5 条
[1]
基于译文的英汉双语句子自动对齐 [J].
钱丽萍 ;
赵铁军 ;
杨沫昀 ;
高光来 .
小型微型计算机系统, 2001, (01) :123-125
[2]
汉英双语库自动分段对齐研究 [J].
王斌 ;
刘群 ;
张祥 .
软件学报, 2000, (11) :1547-1553
[3]
基于词典和统计的语料库词汇级对齐算法 [J].
刘小虎 ;
吴葳 ;
李生 ;
赵铁军 ;
蔡萌 ;
鞠英杰 .
情报学报, 1997, (01)
[4]
统计和词典方法相结合的双语语料库词对齐[A] 吕雅娟;赵铁军;李生;杨沐昀; 全国第六届计算语言学联合学术会议 2001,
[5]
Learning Translation Templates from Bilingual Translation Examples.[J] Ilyas Cicekli;H. Altay Güvenir Appl. Intell. 2001,