随着信息技术的发展,互联网数据及资源呈现海量特征,而且,越来越多的信息以电子文本的形式存在。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术是信息检索和文本挖掘的重要基础,近年来逐渐成为人们研究的热点问题。
本文对文本分类整个过程中涉及到的每个步骤进行了深入研究,包括预处理、文本表示、特征提取、分类算法以及性能评估。对于中文文本分类,到目前为止,尚没有标准的中文语料库可供使用。因此,自己动手收集文献标题作为语料库,并对典型的特征提取算法和分类算法进行了实验对比研究。实验结果表明支持向量机是目前分类性能最好的方法。
为进一步提高文本分类的准确率,使用潜在语义索引获得原始词-文档矩阵的潜在语义结构。通过使用潜在语义索引和不使用潜在语义索引的对比实验发现,在文本分类中,使用潜在语义索引的效果并不理想,这是因为潜在语义索引在进行奇异值分解过程中没有充分考虑分类信息。为解决该问题,提出了一种改进的局部潜在语义索引方法,利用支持向量机的分类优势来产生局部区域,这样选择的局部区域,能够更好地表示某类文档的潜在语义结构,从而提高了分类的准确率。
标准的支持向量机是针对两类分类问题设计的,不能直接用于多类分类问题。为使支持向量能够进行多类分类,必须对支持向量机进行扩展。二叉树方法是一种常用的多类分类方法,而它的关键问题在于如何构造合理的结构以获得较高的推广能力。为解决该问题,按照Huffman树的构造过程自下向上地构造二叉树,使易于分割的类处于上层结点,从而构造了合理的二叉树结构。