汉字字频分布、最佳编码与输入问题

被引:5
作者
石贵青
徐秉铮
机构
[1] 华南工学院
关键词
字频统计; 科技资料; 字序; 技术资料; 汉语拼音; 码长;
D O I
暂无
中图分类号
学科分类号
摘要
本文根据100万字的科技资料中出现3129个不同汉字的字频统计数据,将汉字按字频大小排序,得出字序n较小时,字频近似于Zipt分布,大n时趋于指数分布的规律。根据这种分布,得到汉字的一维熵和汉字最佳编码的平均码长。又根据汉语拼音统计数据,估计汉字多维熵以及汉语拼音熵,并据以分析汉语拼音输入方案。
引用
收藏
页码:94 / 96
页数:3
相关论文
共 1 条
[1]   汉字输入输出方案及其模拟 [J].
林才松 ;
芦欣 ;
韦诚 .
华南工学院学报, 1982, (Z1) :13-25