基于核方法的潜在语义文本分类模型

被引:4
作者
罗远胜
王明文
曾雪强
机构
[1] 江西师范大学计算机信息工程学院
[2] 江西师范大学计算机信息工程学院 南昌330027
关键词
文本分类; 核方法; 潜在语义索引; 偏最小二乘分析; 核偏最小二乘分析;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.027
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。
引用
收藏
页码:1853 / 1856
页数:4
相关论文
共 2 条
[1]   一种基于潜在语义结构的文本分类模型 [J].
曾雪强 ;
王明文 ;
陈素芬 .
华南理工大学学报(自然科学版), 2004, (S1) :99-102
[2]  
潜在语义分类模型的研究[D]. 曾雪强.江西师范大学. 2005