Isomap在基因表达谱数据聚类分析中的应用

被引:11
作者
袁远
季星来
孙之荣
李衍达
机构
[1] 清华大学生物信息学教育部重点实验室
关键词
基因表达谱; 等容特征映射; k均值算法; 聚类算法;
D O I
10.16511/j.cnki.qhdxxb.2004.09.034
中图分类号
TP301 [理论、方法];
学科分类号
081202 ;
摘要
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估
引用
收藏
页码:1286 / 1289
页数:4
相关论文
共 12 条
[1]  
A global geometric framework for nonlinear dimensionality reduction. Tenenbaum J B,Silva V,Langford J C. Science . 2000
[2]  
A genome-wide transcriptional analysis of the mitotic cell cycle. Cho R J,Campbell M J,Winzeler E A,et al. Molecular Cell . 1998
[3]  
Multidimensional Scaling. Cox T,Cox M. . 1994
[4]  
Normalized Cuts and Image Segmentation. Shi J,,Malik J. IEEETrans.on Pattern Analysis and Machine Intelligence . 2000
[5]  
Analysis of gene expression data using self -organizing maps. Toronen P,Kolehmainen M,Wong G,et al. FEBS Letters . 1999
[6]  
Objective criteria for the evaluation of clustering methods. Rand W M. J American Statistical Association . 1971
[7]  
The transcriptional program in the response of human fibroblasts to serum. Iyer V R,Eisen M B,Ross D T,et al. Science . 1999
[8]  
Mining gene expression data using a novel approach based on hidden Markov models. Ji X L,Li -Ling J,Sun Z. FEBS Letters . 2003
[9]  
Interpreting patterns of gene expression with self -organizing maps: methods and application to hematopoietic differentiation. Tamayo P,Slonim D,Mesirov J,et al. Proceedings of the National Academy of Sciences of the United States of America . 1999
[10]  
Systematic determination of genetic network architecture. Tavazoie S,Hughes D,Campbell M J,et al. Nature Genetics . 1999