一种文本分类的在线SVM学习算法

被引:12
作者
代六玲
黄河燕
陈肇雄
机构
[1] 北京理工大学软件学院
[2] 中国科学院计算机语言信息工程研究中心
关键词
计算机应用; 中文信息处理:文本分类; 在线学习; 增量学习; 支持向量机; SMO;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
本文提出了一种用于文本分类的RBF支持向量机在线学习算法。利用RBF核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC-5真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。
引用
收藏
页码:11 / 15+23 +23
页数:6
相关论文
共 1 条
[1]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32