基于支持向量机的Web文本分类方法

被引:19
作者
牛强
王志晓
陈岱
夏士雄
机构
[1] 中国矿业大学计算机科学与技术学院
关键词
支持向量机; 特征提取; Web文本; 文本分类;
D O I
10.19304/j.cnki.issn1000-7180.2006.09.035
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。
引用
收藏
页码:102 / 104
页数:3
相关论文
共 5 条
[1]   模式识别中的支持向量机方法 [J].
杜树新 ;
吴铁军 .
浙江大学学报(工学版), 2003, (05) :25-31
[2]   基于SVM的二叉树多类分类算法及其在故障诊断中的应用 [J].
马笑潇 ;
黄席樾 ;
柴毅 ;
不详 .
控制与决策 , 2003, (03) :272-276+284
[3]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[4]   Web网页识别中的特征选择问题研究 [J].
朱明 ;
王军 ;
王俊普 .
计算机工程, 2000, (08) :35-37
[5]   关于统计学习理论与支持向量机 [J].
张学工 .
自动化学报, 2000, (01) :36-46