基因表达数据的随机森林逐步判别分析方法

被引:14
作者
武晓岩
闫晓光
李康
机构
[1] 哈尔滨医科大学卫生统计学教研室
关键词
随机森林; 基因表达数据; 判别分析; 基因筛选;
D O I
暂无
中图分类号
R195 [卫生调查与统计];
学科分类号
100401 ;
摘要
目的给出一种新的随机森林算法,它能在建模过程中自动对变量进行筛选,建立“最优”判断模型。方法采用变量重要性评分和逐步迭代算法选择有作用的变量;通过实际基因表达数据考核其应用效果,并使用R语言编程做模拟试验验证其有效性。结果三种疾病基因表达数据的判别模型,在包含很少量的基因情况下便获得了理想的分类效果;模拟试验则显示在类间区分度较大的情况下,随机森林逐步判别分析的效果明显,能有效地将有作用的变量保留在模型中,提高模型的判别效果;在类间区分度不够大的情况下分类效果提高不明显。结论随机森林逐步判别分析可以有效地应用于基因表达数据的基因筛选和分类研究,但要特别注意由随机波动对分析结果造成的影响。
引用
收藏
页码:151 / 154
页数:4
相关论文
共 2 条
[1]  
Andom forests. Leo B. . 2001
[2]  
Andom forests. Leo B. . 2001