为了发现文献中的词型分布规律,找出能够代表文献主题内容和语言风格的高频特征词,本文对语料中的词型按出现频次降序排列,再均分成几个词例数目相等的分区,分析其中的词型数量规律。研究发现,按这种方法把词型分成三个、四个、五个分区时,分区之间的词型数量关系是有规律的。增加同质语料的规模,对于词型序列前几个分区的词型数量变化影响微小,而对于最后一个分区的词型数量变化影响较大。本文提出按照"二八定律"来区分高频词与其他词,并提出通过比较高频词型在特定文献与其他多个文献中的等级差异,得到词型的特征系数,自动发现特定文献中的高频特征词。