基于潜在语义标引的WEB文档自动分类

被引:24
作者
戚涌
徐永红
刘凤玉
机构
[1] 南京理工大学计算机科学与工程系,南京理工大学计算机科学与工程系,南京理工大学计算机科学与工程系南京,南京,南京
关键词
web挖掘; 潜在语义标引; 最佳鉴别变换; 分类;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。
引用
收藏
页码:28 / 31
页数:4
相关论文
共 2 条
[1]
PCCS部分聚类分类:一种快速的Web文档聚类方法 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机研究与发展 , 2001, (04) :415-421
[2]
Web信息检索研究进展 [J].
王继成 ;
萧嵘 ;
孙正兴 ;
张福炎 .
计算机研究与发展, 2001, (02) :187-193