基于支持向量机的文本分类方法研究

被引：0

作者：

崔彩霞

机构：

[1] 山西大学

关键词：

文本分类; 特征选择; 粗糙集; 支持向量机;

D O I：

暂无

年度学位：

2005

学位类型：

硕士

导师：

王素格;

摘要：

随着计算机技术和WWW的飞速发展,互联网上的电子文档信息急剧增加。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文从文本的向量模型表示,特征选择和分类器训练这三个步骤较系统地研究了文本自动分类。 (1) 讨论了文本表示的整个过程——分词,建立停用词表,特征选择,权重计算,生成向量空间。针对停用词对分类的影响,建立了适合文本分类的停用词表,使向量维数得到初步降低;对现有特征选择方法进行了介绍和对比,构造了一种适合支持向量机的特征选择函数——基于类内频率的特征选择函数。 (2) 介绍了当前性能较好的三种文本分类方法:朴素贝叶斯、KNN法和支持向量机法,对它们进行了对比研究,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。 (3) 结合粗糙集和支持向量机的优点,提出了基于粗糙集与支持向量机融合的文本分类方法,利用粗糙集的约简可以降低向量的维数,从而缩短了支持向量机的训练时间。 (4) 实现了一个实用性较强的文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练和测试。 (5) 对文本分类未来研究进行了展望。

引用

页数：54

共 16 条

[1]

使用最大熵模型进行中文文本分类 [J].