一种核心子集选择训练的大规模中文网页分类方法

被引:3
作者
傅向华
刘国
陈冬剑
机构
[1] 深圳大学计算机与软件学院
基金
广东省自然科学基金;
关键词
Web网页分类; 最小闭包球; 支持向量机;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP393.092 [];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 080402 ;
摘要
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.
引用
收藏
页码:1608 / 1612
页数:5
相关论文
共 5 条
[1]   基于核方法的Web挖掘研究 [J].
傅向华 ;
冯博琴 ;
马兆丰 ;
韩冰 .
小型微型计算机系统, 2005, (05) :727-731
[2]  
Web page classification[J] . Xiaoguang Qi,Brian D. Davison.ACM Computing Surveys (CSUR) . 2009 (2)
[3]  
Support vector domain description[J] . David M.J Tax,Robert P.W Duin.Pattern Recognition Letters . 1999 (11)
[4]  
RES[P]. 澳大利亚专利:AU5679373A,1974-12-12
[5]  
Optimal core-sets for balls. Badoiu M,Clarkson K L. Comput.Geom.Theory Appl . 2008