基于核方法的Web挖掘研究

被引:3
作者
傅向华
冯博琴
马兆丰
韩冰
机构
[1] 西安交通大学计算机科学与技术系
[2] 西安交通大学计算机科学与技术系 陕西西安
[3] 陕西西安
关键词
核主成分分析; 支持向量机; 文本分类; 维数约简; 语义概念;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
基于词空间的分类方法很难处理文本的高维特性和捕获文本语义概念.利用核主成分分析和支持向量机,提出一种通过约简文本数据维数抽取语义概念、基于语义概念进行文本分类的新方法.首先将文档映射到高维线性特征空间消除非线性特征,然后在映射空间中通过主成分分析消除变量之间的相关性,实现降维和语义概念抽取,得到文档的语义概念空间,最后在语义概念空间中采用支持向量机进行分类.通过新定义的核函数,不必显式实现到语义概念空间的映射,可在原始文档向量空间中直接实现基于语义概念的分类.利用核化的GHA方法自适应迭代求解核矩阵的特征向量和特征值,适于求解大规模的文本分类问题.试验结果表明该方法对于改进文本分类的性能具有较好的效果.
引用
收藏
页码:727 / 731
页数:5
相关论文
共 3 条
[1]   基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[2]  
Text Categorization with Support Vector Machines. How to Represent Texts in Input Space?[J] . Machine Learning . 2002 (1)
[3]   Latent Semantic Kernels [J].
Nello Cristianini ;
John Shawe-Taylor ;
Huma Lodhi .
Journal of Intelligent Information Systems, 2002, 18 :127-152