上世纪九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。为了在这些海量的、异质的、非结构化的数据中提取感兴趣的、潜在有用的模式和隐藏的信息,需要对文本信息进行数据挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。
文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程,它是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势。因此,支持向量机在文本分类中具有很大的应用潜力。但是,支持向量机用于文本分类时仍有许多尚未完全解决的问题。例如,增量学习、多类分类、训练和分类速度较慢等。传统支持向量机是针对两类分类问题的,如何将两类分类方法扩展到多类别分类是支持向量机研究的重要内容之一
在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法的训练和分类速度相对较快,且解决了不可分区域问题,是一种很好的方法。本文针对二叉树支持向量机多分类方法存在的弊端,综合考虑了类距离与类的分布对类间可分离性的影响,采用聚类分析方法建立树的结构,以提高多分类器的决策速度与准确率。最后在复旦大学李荣陆博士的中文语料库上进行了文本分类实验,并对实验数据进行了分析和总结,实验结果验证了所提方法的有效性。