基于Hubness与类加权的k最近邻分类算法

被引:13
作者
李金孟
林亚平
祝团飞
机构
[1] 湖南大学信息科学与工程学院
关键词
Hubness现象; 高维不平衡数据; 维数灾难; 数据分类; k发生; k最近邻分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
针对高维不平衡数据中维数灾难和类不平衡分布问题,提出一种改进k最近邻(kNN)分类算法HWNN。将样本的k发生分布作为其在预测时对各个类的支持度,以此减少高维数据中hubs对kNN分类带来的潜在负面影响。通过类加权的方式增加少数类在所有样本k发生中的分布比例,以提升对少数类样本的预测精度。在16个不平衡UCI数据集上的实验结果表明,该算法在高维不平衡数据中的分类结果优于典型kNN方法,且在普通维度的不平衡数据中优势同样明显。
引用
收藏
页码:248 / 252+261 +261
页数:6
相关论文
共 10 条
[1]
基于Hub的高维数据初始聚类中心的选择策略 [J].
张巧达 ;
何振峰 .
计算机系统应用, 2015, 24 (04) :171-175
[2]
基于Hubness的类别均衡的时间序列实例选择算法 [J].
翟婷婷 ;
何振峰 .
计算机应用, 2012, 32 (11) :3034-3037
[3]
Class-imbalanced classifiers for high-dimensional data [J].
Lin, Wei-Jiun ;
Chen, James J. .
BRIEFINGS IN BIOINFORMATICS, 2013, 14 (01) :13-26
[4]
On kernel difference-weighted k-nearest neighbor classification [J].
Zuo, Wangmeng ;
Zhang, David ;
Wang, Kuanquan .
PATTERN ANALYSIS AND APPLICATIONS, 2008, 11 (3-4) :247-257
[5]
Neighbor-weighted K-nearest neighbor for unbalanced text corpus [J].
Tan, SB .
EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) :667-671
[6]
The elements of statistical learning: data mining, inference and prediction [J].
James Franklin .
The Mathematical Intelligencer, 2005, 27 (2) :83-85
[7]
Editorial.[J].Nitesh V. Chawla;Nathalie Japkowicz;Aleksander Kotcz.ACM SIGKDD Explorations Newsletter.2004, 1
[8]
Mining with rarity.[J].Gary M. Weiss.ACM SIGKDD Explorations Newsletter.2004, 1
[9]
Support vector machines for classification in nonstandard situations [J].
Lin, Y ;
Lee, Y ;
Wahba, G .
MACHINE LEARNING, 2002, 46 (1-3) :191-202
[10]
IMPROVED ESTIMATES FOR THE ACCURACY OF SMALL DISJUNCTS [J].
QUINLAN, JR .
MACHINE LEARNING, 1991, 6 (01) :93-98