基于Web数据的特定领域双语词典抽取

被引:33
作者
张永臣 [1 ]
孙乐 [1 ]
李飞 [1 ]
李文波 [1 ]
西野文人 [2 ]
于浩 [2 ]
方高林 [2 ]
机构
[1] 中国科学院软件研究所中文信息中心中国科学院研究生院
[2] 富士通研究开发中心有限公司
关键词
计算机应用; 中文信息处理; 双语词典; 词间关系矩阵; 非平行语料; 种子词;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。
引用
收藏
页码:16 / 23
页数:8
相关论文
共 3 条
[1]
基于互连网的术语定义获取系统 [J].
许勇 ;
荀恩东 ;
贾爱平 ;
宋柔 ;
不详 .
中文信息学报 , 2004, (04) :37-43
[2]
平行语料库中双语术语词典的自动抽取 [J].
孙乐 ;
金友兵 ;
杜林 ;
孙玉芳 .
中文信息学报, 2000, (06) :33-39
[3]
基于未对齐汉英双语库的翻译对抽取 [J].
王斌 .
中文信息学报, 2000, (06) :40-44+57