用于双语术语抽取的专业领域中英文可比语料库构建

被引:5
作者
康小丽 [1 ]
章成志 [2 ]
机构
[1] 南昌大学图书馆
[2] 南京理工大学信息管理系
关键词
可比语料库; 语料库构建; 双语术语抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。
引用
收藏
页码:28 / 33
页数:6
相关论文
共 8 条
[1]   中英文句法分析系统及验证平台的设计与实现 [J].
祝清松 ;
王惠临 .
现代图书情报技术, 2010, (02) :38-43
[2]   中英可比语料库中翻译等价对抽取方法研究 [J].
孙广范 ;
宋金平 ;
袁琦 ;
肖健 ;
单玉秋 .
计算机工程与应用 , 2007, (32) :44-46+71
[3]   Focused web crawling in the acquisition of comparable corpora [J].
Talvensaari, Tuornas ;
Pirkola, Ari ;
Jarvelin, Kalervo ;
Juhola, Martti ;
Laurikkala, Jorma .
INFORMATION RETRIEVAL, 2008, 11 (05) :427-445
[4]   Creating and exploiting a comparable corpus in cross-language information retrieval [J].
Talvensaari, Tuomas ;
Laurikkala, Jorma ;
Jarvelin, Kalervo ;
Juhola, Martti ;
Keskustalo, Heikki .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (01)
[5]   A study on automatic creation of a comparable document collection in cross-language information retrieval [J].
Talvensaari, Tuomas ;
Laurikkala, Jorma ;
Jarvelin, Kalervo ;
Juhola, Martti .
JOURNAL OF DOCUMENTATION, 2006, 62 (03) :372-387
[6]  
Extraction of Lexical Translations from Non-Aligned Corpora .2 Tanaka,K,and Iwasaki,H. Proceedings of the 16th International Conference on Computational Linguistics (COLING‘96) . 1996
[7]  
Deriving Concept Hierarchies from Text .2 M. Sanderson,B. Croft. Proceedingsof the 22nd annual international ACM SIGIR conference on Research and de-velopment in information retrieval (SIGIR’’99) . 1999
[8]  
Mining a comparable text corpus for a Vietnamese-French statistical machine translation system .2 Do,Thi-Ngoc-Diep,Viet-Bac Le,Brigitte Bigi,Laurent Besacier Eric,Castelli. Proceedings of the 4th EACL Workshop on Statistical Machine Translation . 2009