一种支持ANSI编码的中文文本压缩算法

被引:7
作者
常为领 [1 ]
方滨兴 [1 ,2 ]
云晓春 [2 ]
王树鹏 [2 ]
余翔湛 [1 ]
机构
[1] 哈尔滨工业大学计算机网络与信息安全技术研究中心
[2] 中国科学院计算技术研究所
关键词
CRecode; 数据压缩; Huffman; 压缩算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。
引用
收藏
页码:96 / 105
页数:10
相关论文
共 6 条
[1]
HitIct:中文无损压缩算法性能评估测试集 [J].
常为领 ;
云晓春 ;
方滨兴 ;
王树鹏 .
通信学报, 2009, 30 (03) :42-47
[2]
中文文本压缩的 LZSSCH 算法[J] 华强 中文信息学报 1998, 01
[3]
汉语文本压缩研究及其应用[J] 王忠效 中文信息学报 1997, 03
[4]
Data compression via textual substitution[J] James A. Storer;Thomas G. Szymanski Journal of the ACM (JACM) 1982,
[5]
汉语词汇的统计与分析[M] 北京语言学院语言教学研究所 编 外语教学与研究出版社 1985,
[6]
I mplementing the PPMdata compressionscheme A.Moffat; IEEE Transactions on Communications 1990,