用于大数据分类的KNN算法研究

被引:59
作者
耿丽娟
李星毅
机构
[1] 江苏大学计算机科学与通信工程学院
关键词
大数据; KNN; 差分多层;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
针对KNN算法在处理大数据时的两个不足对其进行了研究,提出多层差分KNN算法。算法对已知样本根据类域进行分层,既避免了传统改进算法中剪辑样本带来的判别误差,又大大降低了无效的计算量;同时在最后一层采用差分的方法进行决策,而不是直接根据最近邻进行分类,大大提高了分类的准确性。实验结果表明,该算法在对样本容量大、涉及邻域多的大数据样本进行分类时能取得较好的分类效果。
引用
收藏
页码:1342 / 1344+1373 +1373
页数:4
相关论文
共 8 条
[1]   一种基于中心文档的KNN中文文本分类算法 [J].
鲁婷 ;
王浩 ;
姚宏亮 .
计算机工程与应用 , 2011, (02) :127-130
[2]   分类大规模数据的核向量机方法研究 [J].
蔡磊 ;
程国建 ;
潘华贤 ;
贾峰 .
西安石油大学学报(自然科学版), 2009, 24 (05) :89-92+113
[3]   一种聚簇消减大规模数据的支持向量分类算法 [J].
陈光喜 ;
徐健 ;
成彦 .
计算机科学, 2009, 36 (03) :184-188
[4]   基于聚类算法的KNN文本分类算法研究 [J].
江涛 ;
陈小莉 ;
张玉芳 ;
熊忠阳 .
计算机工程与应用 , 2009, (07) :153-155+158
[5]   kNN文本分类器类偏斜问题的一种处理对策 [J].
郝秀兰 ;
陶晓鹏 ;
徐和祥 ;
胡运发 .
计算机研究与发展, 2009, 46 (01) :52-61
[6]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[7]   Neighbor-weighted K-nearest neighbor for unbalanced text corpus [J].
Tan, SB .
EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) :667-671
[8]   AN EXAMPLE-BASED MAPPING METHOD FOR TEXT CATEGORIZATION AND RETRIEVAL [J].
YANG, YM ;
CHUTE, CG .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1994, 12 (03) :252-277