大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

被引：3

作者：

张民

李生

赵铁军

机构：

[1] 哈尔滨工业大学计算机科学与工程系

来源：

情报学报 | 1997年 / 01期

关键词：

n元语法,统计,信息熵,知识获取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

本文提出并实现了一种大规模汉语语料库中字、词级任意ｎ的ｎ－ｇｒａｍ统计算法，本算法可以一次性统计出所有不大于任意ｎ（本文ｎ取为２５６）的字、词级ｎ－ｇｒａｍ，可将传统ｎ－ｇｒａｍ统计时的指数空间开销变为线性的，且与所统计的元数无关。基于这种ｎ－ｇｒａｍ的统计，本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中

引用

页码：27 / 34

页数：8