共 1 条
基于词典的汉藏句子对齐研究与实现
被引:10
作者:
于新
[1
,2
]
吴健
[1
]
洪锦玲
[1
]
机构:
[1] 中国科学院软件研究所
[2] 中国科学院研究生院
来源:
关键词:
汉藏句子对齐;
词典;
分词粒度;
平行语料库;
藏文信息处理;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
引用
收藏
页码:57 / 62
页数:6
相关论文