数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。K近邻算法(KNN)是基于统计的分类方法,是数据挖掘分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。
本文主要研究了K近邻分类算法。首先简要地介绍了数据挖掘中的各种分类算法,详细地阐述了K近邻算法的基本原理和应用领域,其次指出了K近邻算法的计算速度慢、分类准确度不高的原因,提出了两种新的改进方法。
针对K近邻算法的计算量大的缺陷,构建了聚类算法与K近邻算法相结合的一种方法。将聚类中的K -均值和分类中的K近邻算法有机结合。有效地提高了分类算法的速度。
针对分类准确度的问题,提出了一种新的距离权重设定方法。传统的KNN算法一般采用欧式距离公式度量两样本间的距离。由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式。本文提出一种新的计算权重的方法。实验表明,本文提出的算法有效地提高了分类准确度。
最后,在总结全文的基础上,指出了有待进一步研究的方向。