一种改进的KNN Web文本分类方法

被引:9
作者
吴春颖
王士同
机构
[1] 江南大学信息工程学院
关键词
Web文本分类; K最近邻; 快速分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。
引用
收藏
页码:3275 / 3277
页数:3
相关论文
共 7 条
[1]   文档相似度综合计算研究 [J].
宋玲 ;
马军 ;
连莉 ;
张志军 .
计算机工程与应用 , 2006, (30) :160-163
[2]   文本分类中特征项权重的计算方法 [J].
贝雨馨 ;
崔荣一 .
延边大学学报(自然科学版), 2004, (03) :202-204+234
[3]   文本分类技术研究 [J].
高洁 ;
吉根林 .
计算机应用研究, 2004, (07) :28-30+34
[4]   基于kNN的快速WEB文档分类 [J].
李杨 ;
曾海泉 ;
刘庆华 ;
胡运发 .
小型微型计算机系统, 2004, (04) :725-729
[5]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[6]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[7]  
用于Web文本分类的快速KNN算法[J]. 王煜,白石,王正欧.情报学报. 2007 (01)