用于文本分类的改进KNN算法

被引:48
作者
王煜 [1 ]
王正欧 [2 ]
白石 [3 ]
机构
[1] 河北大学数学与计算机学院
[2] 天津大学系统工程研究所
[3] 沧州市城建档案馆
关键词
计算机应用; 中文信息处理; 文本分类; 神经网络; Chi-square距离; KNN算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP311.13 [];
学科分类号
120506 [数字人文];
摘要
最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。
引用
收藏
页码:76 / 82
页数:7
相关论文
共 5 条
[1]
基于模糊决策树的文本分类规则抽取 [J].
王煜 ;
王正欧 .
计算机应用, 2005, (07) :1634-1637
[2]
K-最近邻分类技术的改进算法 [J].
王晓晔 ;
王正欧 .
电子与信息学报, 2005, (03) :487-491
[3]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[4]
隐含语义索引及其在中文文本处理中的应用研究 [J].
周水庚 ;
关佶红 ;
胡运发 .
小型微型计算机系统, 2001, (02) :239-243
[5]
A Review and Empirical Evaluation of Feature Weighting Methods for a Class of Lazy Learning Algorithms[J] Dietrich Wettschereck;David W. Aha;Takao Mohri Artificial Intelligence Review 1997,