GA-SVM算法在文本分类中的应用研究

被引:12
作者
宋淑彩
庞慧
丁学钧
机构
[1] 河北建筑工程学院计算机系
关键词
文本分类; 遗传算法; 支持向量机; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低。为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一个个体适应度的评价,通过选择、交叉和变异的遗传操作,得到文本最优特征,最后通过支持向量机利用最优特征进行分类。对复旦大学中文文本分类库进行仿真实验,实验结果表明,相对于传统的文本分类方法,能够快速地得到最优分类特征子集,大大提高文本分类的准确率,在文本挖掘中具有较好的应用前景。
引用
收藏
页码:222 / 225
页数:4
相关论文
共 7 条
[1]   一种改进的支持向量机的文本分类算法 [J].
巩知乐 ;
张德贤 ;
胡明明 .
计算机仿真, 2009, 26 (07) :164-167
[2]   中文文本分类中的特征选择算法研究 [J].
胡佳妮 ;
徐蔚然 ;
郭军 ;
邓伟洪 .
光通信研究, 2005, (03) :44-46
[3]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[4]   基于序列的文本自动分类算法 [J].
解冲锋 ;
李 星 .
软件学报, 2002, (04) :783-789
[5]   一个自动分词分类系统的实现 [J].
潘有能 .
情报学报, 2002, (01) :38-41
[6]   一种最优特征集的选择算法 [J].
朱明 ;
王俊普 ;
蔡庆生 .
计算机研究与发展, 1998, (09) :36-38
[7]  
数据挖掘中的新方法[M]. 科学出版社 , 邓乃扬, 2004