四种模式分类方法应用于基因表达谱分析的比较研究

被引:3
作者
王海芸
李霞
郭政
张瑞杰
机构
[1] 哈尔滨医科大学生物信息学系,哈尔滨医科大学生物信息学系,哈尔滨医科大学生物信息学系,哈尔滨医科大学生物信息学系哈尔滨,同济大学生命科学与技术学院,上海,哈尔滨,同济大学生命科学与技术学院,上海,哈尔滨,同济大学生命科学与技术学院,上海,哈尔滨,同济大学生命科学与技术学院,上海
关键词
统计分类器; 特征基因; 特征选择;
D O I
暂无
中图分类号
R195.1 [卫生统计学];
学科分类号
摘要
利用基因表达谱数据借助于模式分类的方法识别癌症等疾病的类型及不同亚型是DNA芯片技术的一个应用方面。在这篇文章中,我们研究比较了在不同的特征基因选择方法的情况下,Fisher线性判别,Logit非线性判别,最小距离和K-最近邻四种模式分类方法对疾病分型效能的影响及四种模式分类方法的泛化能力,同时研究了在样本构成变化的情况下,模式分类方法的稳定性。结果发现:运用t检验法和分类树选择的特征基因,明显优于随机选择的基因在四种不同的分类器中分类效果;四种分类器中,K最近邻分类器的分类效能最优;基于最小距离的分类器和K最近邻分类器有较强的泛化能力;四种模式分类对样本构成的变化呈较好的稳定性。
引用
收藏
页码:505 / 509
页数:5
相关论文
共 4 条
[1]  
Irrelevant features and the subset selection problem. John GH,Kohavi R,Pfleger K. Machine Learning: Proceedings of the 11th International Conference . 1994
[2]   一种基于递归分类树的集成特征基因选择方法 [J].
李霞 ;
张田文 ;
郭政 .
计算机学报, 2004, (05) :675-682
[3]  
医学信息分析方法[M]. 哈尔滨出版社 , 郭政等主编, 2001
[4]  
A nonparametric scoring algorithm for identifying informative genes from microarray data. Park PJ,Pagano M,Bonetti M. In: Pacific Symposium on Biocomputing . 2001