网络信息量的指数增长对信息检索提出了更高的要求。为方便信息检索,有必要先对海量的电子信息按其内容加以分类。实验室以往的研究是对自动分类作初步的尝试,因此只进行单层次分类研究,对类别体系没有做过深入的研究。考虑到当类别个数比较多的时候,提取模型的时间耗费巨大,而且在对新文档进行分类时要与所有的类模型进行比较,这显然很不经济。因此本论文在对自动分类技术进行深入研究的基础上,结合实验室原有的单层次的分类成果,实现了一个多层次的中文文本自动分类系统,并在特征加权和维数缩减方面等方面做了一定改进。
一定数量的排列有序的特征生成了一篇文档,也决定了它的类别。特征提取的好坏直接影响到分类器的设计及其性能。如果提取的特征对于不同类别的差别很大,就比较容易设计出性能较好的分类器,因此需要对一些重要度高的特征作加权处理。同时,文本分类需要将一般的样本空间变换到特征空间,此时特征空间的向量维数一般都高达几千维甚至数万维,计算量相当大,需要通过特征选择降低维数,以简化计算。
本系统采用了传统的反文档频率算法与特征的类别分布信息相结合的新算法(特征项在类间及类内的分布信息)对特征项作加权处理。针对有些频率很低但重要度却很高的特征项的特点,本系统提出了低频高权特征的概念,并为每个类别建立低频高权特征集。本系统在对特征进行综合加权并通过阈值筛选后,进一步通过特征重要度测试进行又一轮的特征筛选,在基本不影响分类精度的前提下实现特征空间维数的进一步下降。
实验证明,多层次的分类算法较以往的单层次的分类系统相比,在分类的精度和速度上都有明显的提高,改进的特征加权算法和维数缩减方法也有效地改善了分类器的性能。