汉语文本动态字母表0阶模型算术编码

被引:1
作者
王忠效
范植华
机构
[1] 中国科学院软件研究所!北京
关键词
数据压缩; 汉语文本压缩; 算术编码; 统计模型;
D O I
暂无
中图分类号
H127 [汉字编码];
学科分类号
摘要
本文探讨汉语文本的0 阶统计模型的构造方法,提出了一个卓有成效的汉语文本压缩算法。仅仅凭借这一最初级的模型,汉语文本的编码效率已经超过LZ与Huffman 编码的混合算法。由于0 阶统计模型是各种高阶统计模型的基础,所以,本文对汉语以及其他大字符集文种( 如日文、朝鲜文) 的文本压缩研究具有重要的参考意义
引用
收藏
页码:39 / 47
页数:9
相关论文
共 7 条
[1]   汉字异或动态散列分组查找算法 [J].
王忠效 ;
范植华 .
中文信息学报, 1998, (04) :61-66
[2]   中文文本压缩的 LZSSCH 算法 [J].
华强 .
中文信息学报, 1998, (01) :51-57
[3]   汉语文本压缩研究及其应用 [J].
王忠效 .
中文信息学报, 1997, (03) :58-65
[4]   关于Lempel-Ziv 77压缩算法及其实现的研究 [J].
王忠效,姜丹 .
计算机研究与发展 , 1996, (05)
[5]   中文文本压缩的自适应算法 [J].
贺前华 ;
徐秉铮 ;
彭磊 .
中文信息学报, 1993, (03) :46-54
[6]  
现代汉语频率词典[M]. 北京语言学院出版社 , 北京语言学院语言教学研究所编, 1986
[7]  
The zero-frequency problem: Estimating the probabilities of novel events in adaptive text compression .2 Witten I H,Bell T C. IEEE Transactions on Information Theory . 1991