基于词典的汉藏句子对齐研究与实现

被引:10
作者
于新 [1 ,2 ]
吴健 [1 ]
洪锦玲 [1 ]
机构
[1] 中国科学院软件研究所
[2] 中国科学院研究生院
关键词
汉藏句子对齐; 词典; 分词粒度; 平行语料库; 藏文信息处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
引用
收藏
页码:57 / 62
页数:6
相关论文
共 1 条