共 1 条
汉字字频分布、最佳编码与输入问题
被引:5
作者:
石贵青
徐秉铮
机构:
[1] 华南工学院
来源:
关键词:
字频统计;
科技资料;
字序;
技术资料;
汉语拼音;
码长;
D O I:
暂无
中图分类号:
学科分类号:
摘要:
本文根据100万字的科技资料中出现3129个不同汉字的字频统计数据,将汉字按字频大小排序,得出字序n较小时,字频近似于Zipt分布,大n时趋于指数分布的规律。根据这种分布,得到汉字的一维熵和汉字最佳编码的平均码长。又根据汉语拼音统计数据,估计汉字多维熵以及汉语拼音熵,并据以分析汉语拼音输入方案。
引用
收藏
页码:94 / 96
页数:3
相关论文