共 1 条
大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
被引:3
作者:
张民
李生
赵铁军
机构:
[1] 哈尔滨工业大学计算机科学与工程系
来源:
关键词:
n元语法,统计,信息熵,知识获取;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
引用
收藏
页码:27 / 34
页数:8
相关论文