共 3 条
基于外部排序的字串左右熵快速计算方法
被引:2
作者:
张海军
[1
,2
]
彭成
[1
]
栾静
[1
]
机构:
[1] 新疆师范大学计算机科学技术学院
[2] 中国科技大学计算机科学技术学院
来源:
关键词:
自然语言处理;
左右熵;
统计特征;
新词检测;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。
引用
收藏
页码:18 / 20
页数:3
相关论文