基于CART算法的肺癌微阵列数据的分类

被引:5
作者
陈磊
刘毅慧
机构
[1] 山东轻工业学院信息科学与技术学院智能信息处理研究所
关键词
微阵列数据; 分类; 决策树; CART 算法;
D O I
暂无
中图分类号
R734.2 [肺肿瘤];
学科分类号
100214 ;
摘要
基因芯片技术是基因组学中的重要研究工具。而基因芯片数据( 微阵列数据) 往往是高维的,使得降维成为微阵列数据分析中的一个必要步骤。本文对美国哈佛医学院 G. J. Gordon 等人提供的肺癌微阵列数据进行分析。通过 t- test,Wilcoxon 秩和检测分别提取微阵列数据特征属性,后根据 CART( Classification and Regression Tree) 算法,以 Gini 差异性指标作为误差函数,用提取的特征属性广延的构造分类树; 再进行剪枝找到最优规模的树,目的是提高树的泛化性能使得能很好适应新的预测数据。实验证明: 该方法对肺癌微阵列数据分类识别率达到 96% 以上,且很稳定; 并可以得到人们容易理解的分类规则和分类关键基因。
引用
收藏
页码:229 / 234
页数:6
相关论文
共 7 条
[1]  
Feature extraction for DNA microarray data..Liu Y;.Twentieth IEEE international symposium on computer-based medical systems. CBMS.2007,
[2]  
生物信息学.[M].王翼飞;史定华主编;.化学工业出版社.2006,
[3]  
生物信息学基础.[M].孙啸;陆祖宏;谢建明编著;.清华大学出版社.2005,
[4]  
生物统计学基础.[M].(美)伯纳德·罗斯纳(BernardRosner)著;孙尚拱译;.科学出版社.2004,
[5]  
神经—模糊和软计算.[M].张平安;高春华等译;张智星等[编著];.西安交通大学出版社.2000,
[6]   基于线性判别分析的基因表达数据分类方法研究 [J].
张旭东 ;
王亚东 ;
李霞 ;
苏小红 .
生物信息学, 2006, (01) :8-12
[7]   秩和基因选取方法及其在肿瘤诊断中的应用 [J].
邓林 ;
马尽文 ;
裴健 .
科学通报, 2004, (13) :1311-1316