英中可比语料库中多词表达自动提取与对齐

被引:12
作者
肖健
徐建
徐晓兰
袁琦
机构
[1] 中国电子信息产业发展研究院
关键词
三元组可比语料库; 多词表达(MWE); 语义模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。
引用
收藏
页码:130 / 134+187 +187
页数:6
相关论文
共 5 条
[1]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning, 2005
[2]  
Deep lexical acquisition of verb–particle constructions[J] . Timothy Baldwin.Computer Speech & Language . 2005 (4)
[3]   Comparing and combining a semantic tagger and a statistical tool for MWE extraction [J].
Piao, SSL ;
Rayson, P ;
Archer, D ;
McEnery, T .
COMPUTER SPEECH AND LANGUAGE, 2005, 19 (04) :378-397
[4]  
Right from the word goidentifying MWE for seman-tic tagging .2 Rayson P. http/:/www.comp.lancs.ac.uk/paul/publications/raysonBaalCorpusSig2005.pdf . 2005
[5]  
An empirical model of multiword expression decomposability .2 Baldwin,C Bannard,T Tanaka,D.Widdows. Proceedings of the of the ACL-2003 Workshop on Multiword Expressions:Analysis,Acquisition and Treatment . 2003