基于外部排序的字串左右熵快速计算方法

被引：2

作者：

张海军 ^{[1
,2
]}

彭成 ^{[1
]}

栾静 ^{[1
]}

机构：

[1] 新疆师范大学计算机科学技术学院

[2] 中国科技大学计算机科学技术学院

来源：

计算机工程与应用 | 2011年 / 47卷 / 19期

关键词：

自然语言处理; 左右熵; 统计特征; 新词检测;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。

引用

页码：18 / 20

页数：3