一种支持ANSI编码的中文文本压缩算法

被引：7

作者：

常为领 ^{[1
]}

方滨兴 ^{[1
,2
]}

云晓春 ^{[2
]}

王树鹏 ^{[2
]}

余翔湛 ^{[1
]}

机构：

[1] 哈尔滨工业大学计算机网络与信息安全技术研究中心

[2] 中国科学院计算技术研究所

来源：

中文信息学报 | 2010年 / 05期

关键词：

CRecode; 数据压缩; Huffman; 压缩算法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。

引用

页码：96 / 105

页数：10

共 6 条

[1]

HitIct:中文无损压缩算法性能评估测试集 [J].

常为领 ;

云晓春 ;

方滨兴 ;

王树鹏 .

通信学报, 2009, 30 (03) :42-47

[2]

中文文本压缩的 LZSSCH 算法[J] 华强中文信息学报 1998, 01

[3]

汉语文本压缩研究及其应用[J] 王忠效中文信息学报 1997, 03

[4]

Data compression via textual substitution[J] James A. Storer;Thomas G. Szymanski Journal of the ACM (JACM) 1982,

[5]

汉语词汇的统计与分析[M] 北京语言学院语言教学研究所编外语教学与研究出版社 1985,

[6]

I mplementing the PPMdata compressionscheme A.Moffat; IEEE Transactions on Communications 1990,

← 1 →