基因表达谱数据挖掘的特征提取方法研究

被引:0
作者
姚唐龙
机构
[1] 安徽大学
关键词
基因表达谱; 子模性质; 特征提取; 局部保持投影;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
随着新分子生物学技术和DNA微阵列技术的迅速发展,在生物样本中可以同时定量测量数以万计的基因表达水平,使用这一技术产生的基因表达谱数据能够揭开隐含的、以前未知的生物学知识。近几年来,研究学者利用统计学和模式识别等知识对微阵列基因表达谱数据进行分析,对致病的肿瘤基因进行有效的挖掘,从而对肿瘤的类型作出准确的诊断和分类预测。然而针对高维小样本特点的肿瘤基因表达谱数据来说,传统的数据处理方法在对肿瘤数据进行分析之前,普遍都是将高维度的肿瘤数据转换为低维度之后再进行处理,在保证分类识别精度的同时提高学习方法的性能和计算效率。本文通过结合生物信息学和模式识别中的相关知识,对高维小样本特点的肿瘤数据进行特征基因的提取,并对相应的实验结果进行了有效性分析,其主要研究内容如下:1.提出一种基于子模态性质的特征基因选择算法。首先,考虑到肿瘤基因表达谱数据基因之间相关性的特点,将独立的基因属性转变为具有结构信息的邻接图;其次,对表征基因关系的邻接矩阵构建子模性质的特征选择目标函数,然后使用贪心算法求解,获得相应的特征基因子集;最后,将训练样本选取的特征子集运用到测试样本分类中,使用KNN和SVM分类器进行分类识别,通过对实验结果的分析说明了该方法的有效性。2.针对高维小样本特点的肿瘤基因表达谱数据,将局部保持投影降维方法应用于肿瘤基因表达谱特征基因提取中。该方法首先使用主成分分析口CA)对高维的原始数据进行降维和去噪,将处理后的数据通过保留99%的主成分作为对原始数据的表征;然后利用LPP能够保持局部特征的优点作降维约减,在肿瘤数据上对特征基因进行信息提取;最后分别使用KNN分类器和SVM分类器对肿瘤数据进行有效分类,通过对三组公开的真实数据集进行实验与结果分析,验证了该方法的可行性和有效性。
引用
收藏
页数:53
共 20 条
[1]
面向高维小样本数据的分类特征选择算法研究 [D]. 
张靖 .
合肥工业大学,
2014
[2]
基于生物知识的生物芯片表达谱数据分析研究 [D]. 
方焯 .
华中科技大学,
2006
[3]
An Efficient Ensemble Learning Method for Gene Microarray Classification.[J].Alireza Osareh;Bita Shadgar;Arnout Voet.<journal-title>BioMed Research International.2013,
[4]
Comparison of Supervised and Unsupervised Learning Algorithms for Pattern Classification.[J].R. Sathya;Annamma Abraham.International Journal of Advanced Research in Artificial Intelligence.2013, 2
[5]
Binary matrix factorization for analyzing gene expression data [J].
Zhang, Zhong-Yuan ;
Li, Tao ;
Ding, Chris ;
Ren, Xian-Wen ;
Zhang, Xiang-Sun .
DATA MINING AND KNOWLEDGE DISCOVERY, 2010, 20 (01) :28-52
[6]
Gene Expression Data Classification Using Consensus Independent Component Analysis [J].
ChunHou Zheng DeShuang Huang XiangZhen Kong and XingMing Zhao College of Information and Communication Technology Qufu Normal University Rizhao China Intelligent Computing Lab Institute of Intelligent Machines Chinese Academy of Sciences Hefei China .
Genomics Proteomics & Bioinformatics, 2008, (02) :74-82
[7]
Margin-based wrapper methods for gene identification using microarray.[J].Xue-Wen Chen.Neurocomputing.2005, 16
[8]
Gene expression correlates of clinical prostate cancer behavior [J].
Singh, D ;
Febbo, PG ;
Ross, K ;
Jackson, DG ;
Manola, J ;
Ladd, C ;
Tamayo, P ;
Renshaw, AA ;
D'Amico, AV ;
Richie, JP ;
Lander, ES ;
Loda, M ;
Kantoff, PW ;
Golub, TR ;
Sellers, WR .
CANCER CELL, 2002, 1 (02) :203-209
[9]
Deciphering gene expression regulatory networks [J].
Wyrick, JJ ;
Young, RA .
CURRENT OPINION IN GENETICS & DEVELOPMENT, 2002, 12 (02) :130-136
[10]
Gene selection for cancer classification using support vector machines [J].
Guyon, I ;
Weston, J ;
Barnhill, S ;
Vapnik, V .
MACHINE LEARNING, 2002, 46 (1-3) :389-422