基于投影寻踪的中文网页分类算法

被引:10
作者
万中英
王明文
廖海波
机构
[1] 江西师范大学物理与通信电子学院
[2] 江西师范大学计算机信息工程学院
[3] 江西师范大学计算机信息工程学院 江西南昌
[4] 江西南昌
关键词
计算机应用; 中文信息处理; 投影寻踪; 网页分类; 遗传算法; KNN算法;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着Web信息迅猛发展,网络用户对网页自动分类器的需求日益增长。为了提高分类精度,本文提出了一种新的基于投影寻踪(ProjectionPursuit,简称PP)的中文网页分类算法。我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n维向量的网页投影到一维空间。最后采用KNN分类算法对其进行分类。此方法能解决“维数灾难”问题。实验结果表明,我们提出的算法是可行而且是有效的。
引用
收藏
页码:60 / 67
页数:8
相关论文
共 5 条
[1]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[2]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[3]   基于统计分词的中文网页分类 [J].
黄科 ;
马少平 .
中文信息学报, 2002, (06) :25-31
[4]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[5]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101