大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

被引:3
作者
张民
李生
赵铁军
机构
[1] 哈尔滨工业大学计算机科学与工程系
关键词
n元语法,统计,信息熵,知识获取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
引用
收藏
页码:27 / 34
页数:8
相关论文
共 1 条