基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用

被引:86
作者
杨帆 [1 ]
林琛 [2 ]
周绮凤 [1 ]
符长虹 [1 ]
罗林开 [1 ]
机构
[1] 厦门大学自动化系
[2] 厦门大学计算机科学系
关键词
随机森林; 潜在κ近邻; 基因表达数据;
D O I
暂无
中图分类号
TP311.13 []; TP274 [数据处理、数据处理系统];
学科分类号
140102 [集成电路设计与设计自动化];
摘要
随机森林被广泛应用于包括癌症诊断在内的生物信息学领域.从自适应k近邻的角度分析了随机森林的分类机理,分析其存在的信息损失,据此提出一种新的投票机制,称为基于随机森林的潜在k近邻算法RF-PN,能够充分利用决策树上的OOB样本信息,显著改善随机森林的分类性能.6个癌症基因表达数据集上的对比实验表明,RF-PN的分类准确率优于原算法.
引用
收藏
页码:815 / 825
页数:11
相关论文
共 5 条
[1]
On the layered nearest neighbour estimate, the bagged nearest neighbour estimate and the random forest method in regression and classification [J].
Biau, Gerard ;
Devroye, Luc .
JOURNAL OF MULTIVARIATE ANALYSIS, 2010, 101 (10) :2499-2518
[2]
The forest batis, Batis mixta, is two species:: description of a new, narrowly distributed Batis species in the Eastern Arc biodiversity hotspot [J].
Fjeldsa, Jon ;
Bowie, Rauri C. K. ;
Kiure, Jacob .
JOURNAL OF ORNITHOLOGY, 2006, 147 (04) :578-590
[3]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[4]
Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[5]
多项式光滑的半监督支持向量分类机 [J].
刘叶青 ;
刘三阳 ;
谷明涛 .
系统工程理论与实践, 2009, 29 (07) :113-118