学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
不平衡数据的降采样方法研究
被引:33
作者
:
林舒杨
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学计算机科学系
林舒杨
李翠华
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学计算机科学系
李翠华
论文数:
引用数:
h-index:
机构:
江弋
论文数:
引用数:
h-index:
机构:
林琛
邹权
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学计算机科学系
邹权
机构
:
[1]
厦门大学计算机科学系
来源
:
计算机研究与发展
|
2011年
/ S3期
关键词
:
类别不平衡;
聚类;
降采样;
分类;
机器学习;
D O I
:
暂无
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
提出了一种处理不平衡数据的降采样方法,以解决机器学习中分类器在训练时因为样本集中的样本类别不平衡而导致过拟合造成分类器性能下降的问题.利用K-Means方法,对大类样本进行聚类并提取聚类中心,获得与较小样本集样本数目近似的样本,组成新的样本集用以训练.为了避免在小类样本数目较小的情况下,单纯使用聚类降采样算法造成训练集样本的过度稀疏,使用SMOTE过采样算法结合聚类降采样,既避免了SMOTE为样本集引入较多的噪声,又有效地解决了训练集样本稀疏的问题.6组UCI测试数据和5组生物信息学实验证明了它在对类别不平衡数据进行降采样上的有效性.
引用
收藏
页码:47 / 53
页数:7
相关论文
共 3 条
[1]
类别不平衡的分类方法及在生物信息学中的应用
[J].
论文数:
引用数:
h-index:
机构:
邹权
;
论文数:
引用数:
h-index:
机构:
郭茂祖
;
论文数:
引用数:
h-index:
机构:
刘扬
;
论文数:
引用数:
h-index:
机构:
王峻
.
计算机研究与发展,
2010,
47
(08)
:1407
-1414
[2]
一种基于级联模型的类别不平衡数据分类方法
[J].
刘胥影
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
南京大学软件新技术国家重点实验室
刘胥影
;
吴建鑫
论文数:
0
引用数:
0
h-index:
0
机构:
佐治亚理工学院计算机学院
南京大学软件新技术国家重点实验室
吴建鑫
;
论文数:
引用数:
h-index:
机构:
周志华
.
南京大学学报(自然科学版),
2006,
(02)
:148
-155
[3]
An overview of anomaly detection techniques: Existing solutions and latest technological trends[J] . Animesh Patcha,Jung-Min Park.Computer Networks . 2007 (12)
←
1
→
共 3 条
[1]
类别不平衡的分类方法及在生物信息学中的应用
[J].
论文数:
引用数:
h-index:
机构:
邹权
;
论文数:
引用数:
h-index:
机构:
郭茂祖
;
论文数:
引用数:
h-index:
机构:
刘扬
;
论文数:
引用数:
h-index:
机构:
王峻
.
计算机研究与发展,
2010,
47
(08)
:1407
-1414
[2]
一种基于级联模型的类别不平衡数据分类方法
[J].
刘胥影
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
南京大学软件新技术国家重点实验室
刘胥影
;
吴建鑫
论文数:
0
引用数:
0
h-index:
0
机构:
佐治亚理工学院计算机学院
南京大学软件新技术国家重点实验室
吴建鑫
;
论文数:
引用数:
h-index:
机构:
周志华
.
南京大学学报(自然科学版),
2006,
(02)
:148
-155
[3]
An overview of anomaly detection techniques: Existing solutions and latest technological trends[J] . Animesh Patcha,Jung-Min Park.Computer Networks . 2007 (12)
←
1
→