基于离散核支持向量机的文本自动分类

被引:3
作者
傅鹏
张德运
机构
[1] 西安交通大学电子与信息工程学院
[2] 西安交通大学电子与信息工程学院 西安710049
关键词
信息处理; 支持向量机; 离散核; 文本分类; 向量空间模型;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.011
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。
引用
收藏
页码:1778 / 1782
页数:5
相关论文
共 7 条
[1]  
Text categorization with support vector machines: Learning with many relevant features. Joachims T. Proceedings of ECML-98 , 10th European Conference on Machine Learning . 1998
[2]  
Text classification using string kernels. Lodhi H,Saunders C,Shawe-talor J,et al. J ournal of Machine Learning Researching . 2002
[3]  
Word-sequence kernels. Cancedda N,Gaussier E,Goutte C,et al. J ournal of Machine Learning Research . 2003
[4]  
Web document clustering: A feasibility demostration. Zamir O,Etzioni O. Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 1998
[5]  
Fast kernels for string and tree matching. Vishwanathan S V N,Smola A J. Advances in Neural Information Proceesing Systems 15 . 2002
[6]  
Approximate string matching in sublinear expected time. Chang W I,Lawler E L. Proceedings 31st Annual Symposium on Foundations of Computer Science IEEE . 1990
[7]  
On-line construction of suffix trees. Ukkonen E. Algorithmica . 1995