汉语言文学作品中词频的Zipf分布

被引:14
作者
王洋 [1 ]
刘宇凡 [2 ]
陈清华 [1 ]
机构
[1] 北京师范大学管理学院
[2] 石家庄经济学院人文社科学院
关键词
Zipf分布; 汉语; 词频; 字频;
D O I
暂无
中图分类号
H13 [语义、词汇、词义(训诂学)];
学科分类号
0501 ; 050103 ;
摘要
以《红楼梦》《毛泽东选集》《邓小平文选》为对象,利用CSW分词软件进行词语的切分,统计发现这些材料的词频都表现出Zipf分布规律.这个结果与包括英语、西班牙语、法语、希腊语,甚至古代语言Meroitic等在内的很多种语言的实证研究结果是一致的.以往基于字和多元字对而不是用词的研究方法是出现争论的主要原因.
引用
收藏
页码:424 / 427
页数:4
相关论文
共 6 条
[1]   现代汉语计算语言模型中语言单位的频度—频级关系 [J].
关毅 ;
王晓龙 ;
张凯 .
中文信息学报, 1999, (02) :9-16
[2]   Zipf's Law for Indian Languages [J].
Jayaram, B. D. ;
Vidya, M. N. .
JOURNAL OF QUANTITATIVE LINGUISTICS, 2008, 15 (04) :293-317
[3]  
Word Length, Word Frequencies and Zipf’s Law in the Greek Language[J] . Nick Hatzigeorgiu,George Mikros,George Carayannis.Journal of Quantitative Linguistics . 2001 (3)
[4]  
Some Statistical Properties and Zipf’s Law in Korean Text Corpus[J] . S. -W. Choi.Journal of Quantitative Linguistics . 2000 (1)
[5]  
Zipf’s data on the frequency of Chinese words revisited[J] . R. Rousseau,Qiaoqiao Zhang.Scientometrics . 1992 (2)
[6]  
Least Effort and the Origins of Scaling in Human Language. Cancho, R. F,and Solé, R. V. Proceedings of the National Academy of Sciences of the United States of America . 2003