基于外部排序的字串左右熵快速计算方法

被引:2
作者
张海军 [1 ,2 ]
彭成 [1 ]
栾静 [1 ]
机构
[1] 新疆师范大学计算机科学技术学院
[2] 中国科技大学计算机科学技术学院
关键词
自然语言处理; 左右熵; 统计特征; 新词检测;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。
引用
收藏
页码:18 / 20
页数:3
相关论文
共 3 条
[1]   一种改进的中文字符串排序方法 [J].
张海军 ;
丁溪源 ;
朱朝勇 .
计算机工程与应用 , 2010, (19) :129-131
[2]   一种面向术语抽取的短语过滤技术 [J].
周浪 ;
冯冲 ;
黄河燕 .
计算机工程与应用 , 2009, (19) :9-11
[3]   基于多特征的自适应新词识别 [J].
罗智勇 ;
宋柔 .
北京工业大学学报, 2007, (07) :718-725