基于支持向量机的文本分类方法研究

被引:0
作者
崔彩霞
机构
[1] 山西大学
关键词
文本分类; 特征选择; 粗糙集; 支持向量机;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
随着计算机技术和WWW的飞速发展,互联网上的电子文档信息急剧增加。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。 本文从文本的向量模型表示,特征选择和分类器训练这三个步骤较系统地研究了文本自动分类。 (1) 讨论了文本表示的整个过程——分词,建立停用词表,特征选择,权重计算,生成向量空间。针对停用词对分类的影响,建立了适合文本分类的停用词表,使向量维数得到初步降低;对现有特征选择方法进行了介绍和对比,构造了一种适合支持向量机的特征选择函数——基于类内频率的特征选择函数。 (2) 介绍了当前性能较好的三种文本分类方法:朴素贝叶斯、KNN法和支持向量机法,对它们进行了对比研究,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。 (3) 结合粗糙集和支持向量机的优点,提出了基于粗糙集与支持向量机融合的文本分类方法,利用粗糙集的约简可以降低向量的维数,从而缩短了支持向量机的训练时间。 (4) 实现了一个实用性较强的文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练和测试。 (5) 对文本分类未来研究进行了展望。
引用
收藏
页数:54
共 16 条
[1]
使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[3]
基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[4]
神经网络在文本分类上的一种应用 [J].
刘钢 ;
胡四泉 ;
范植华 ;
王勇 ;
张彤 ;
不详 .
计算机工程与应用 , 2003, (36) :73-74+92
[5]
基于VSM的中文文本分类系统的设计与实现 [J].
张东礼 ;
汪东升 ;
郑纬民 .
清华大学学报(自然科学版), 2003, (09) :1288-1291
[6]
一种文本处理中的朴素贝叶斯分类器 [J].
李静梅 ;
孙丽华 ;
张巧荣 ;
张春生 .
哈尔滨工程大学学报, 2003, (01) :71-74
[7]
中文文本自动分类研究进展附视频 [J].
王闰强 ;
胡铁军 .
医学情报工作, 2002, (06) :342-345+347
[8]
一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[9]
基于支持向量机的中文文本自动分类研究 [J].
都云琪 ;
肖诗斌 .
计算机工程, 2002, (11) :137-138+289
[10]
一种基于遗传算法的优化分类器的方法 [J].
季文赟 ;
周傲英 ;
张亮 ;
金文 .
软件学报, 2002, (02) :245-249