随着计算机技术和WWW的飞速发展,互联网上的电子文档信息急剧增加。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。
本文从文本的向量模型表示,特征选择和分类器训练这三个步骤较系统地研究了文本自动分类。
(1) 讨论了文本表示的整个过程——分词,建立停用词表,特征选择,权重计算,生成向量空间。针对停用词对分类的影响,建立了适合文本分类的停用词表,使向量维数得到初步降低;对现有特征选择方法进行了介绍和对比,构造了一种适合支持向量机的特征选择函数——基于类内频率的特征选择函数。
(2) 介绍了当前性能较好的三种文本分类方法:朴素贝叶斯、KNN法和支持向量机法,对它们进行了对比研究,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。
(3) 结合粗糙集和支持向量机的优点,提出了基于粗糙集与支持向量机融合的文本分类方法,利用粗糙集的约简可以降低向量的维数,从而缩短了支持向量机的训练时间。
(4) 实现了一个实用性较强的文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练和测试。
(5) 对文本分类未来研究进行了展望。