基于K近邻的分类算法研究

被引:0
作者
桑应宾
机构
[1] 重庆大学
关键词
K近邻; 聚类算法; 权重; 复杂度; 准确度;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。K近邻算法(KNN)是基于统计的分类方法,是数据挖掘分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。 本文主要研究了K近邻分类算法。首先简要地介绍了数据挖掘中的各种分类算法,详细地阐述了K近邻算法的基本原理和应用领域,其次指出了K近邻算法的计算速度慢、分类准确度不高的原因,提出了两种新的改进方法。 针对K近邻算法的计算量大的缺陷,构建了聚类算法与K近邻算法相结合的一种方法。将聚类中的K -均值和分类中的K近邻算法有机结合。有效地提高了分类算法的速度。 针对分类准确度的问题,提出了一种新的距离权重设定方法。传统的KNN算法一般采用欧式距离公式度量两样本间的距离。由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式。本文提出一种新的计算权重的方法。实验表明,本文提出的算法有效地提高了分类准确度。 最后,在总结全文的基础上,指出了有待进一步研究的方向。
引用
收藏
页数:42
共 29 条
[1]
基于结构学习的KNN分类算法 [J].
孙岩 ;
吕世聘 ;
王秀坤 ;
唐一源 .
计算机科学, 2007, (12) :184-186+237
[2]
用聚类-分类模式解决聚类问题 [J].
周志勇 ;
袁方 ;
刘海博 .
广西师范大学学报(自然科学版), 2007, (02) :127-130
[3]
基于PSO面向K近邻分类的特征权重学习算法 [J].
任江涛 ;
卓晓岚 ;
许盛灿 ;
印鉴 .
计算机科学, 2007, (05) :187-189
[4]
一种基于信息增益的K-NN改进算法 [J].
豆增发 ;
王英强 ;
王保保 .
电子科技, 2006, (12) :52-56
[5]
一种新的确定K-均值算法初始聚类中心的方法 [J].
王汉芝 ;
刘振全 .
天津科技大学学报, 2005, (04) :76-79
[6]
基于改进KNN的文本分类方法 [J].
钱晓东 ;
王正欧 ;
不详 .
情报科学 , 2005, (04) :550-554
[7]
基于SVM的特征加权KNN算法 [J].
陈振洲 ;
李磊 ;
姚正安 .
中山大学学报(自然科学版), 2005, (01) :17-20
[8]
一种新的广义最近邻方法研究 [J].
赵莹 ;
高隽 ;
汪荣贵 ;
胡静 .
电子学报, 2004, (S1) :196-198
[9]
可重构造网孔机器上k-近邻并行算法 [J].
赵建勇 ;
许胤龙 ;
陈龙斌 .
计算机研究与发展, 2004, (09) :1559-1564
[10]
改进的K近邻方法在岩性识别中的应用 [J].
王淑盛 ;
徐正光 ;
刘黄伟 ;
王志良 ;
史立峰 .
地球物理学进展, 2004, (02) :478-480