一种基于稀疏主成分的基因表达数据特征提取方法

被引:5
作者
沈宁敏
李静
周培云
庄毅
机构
[1] 南京航空航天大学计算机科学与技术学院
关键词
基因表达数据; 负载因子; 截断幂; 稀疏主成分分析; 特征提取;
D O I
暂无
中图分类号
TP311.13 []; Q811.4 [生物信息论];
学科分类号
1201 ; 0711 ; 0831 ;
摘要
聚类已成为基因表达数据的一种前沿分析方法,通过基因类别的划分可以较快速地发现病变细胞,以实现对疾病的诊断。然而,高维、小样本的数据特点使得原始采集的基因表达数据具有大量的冗余与干扰信息,直接聚类会使得算法运行时间长,分析结果精度低。主成分分析是一种经典的数据降维方法,在保持方差最大的情况下,将高维数据映射到低维空间。但负载因子的非零特性使得主成分不具有强解释能力。提出基于截断幂的稀疏主成分分析方法对基因表达数据进行特征提取,并结合K-means方法对稀疏提取的特征基因数据进行聚类分析。最后,利用3个公开的基因数据集进行实验分析,验证了所提出的特征提取方法可提高基因表达数据聚类的精确性与高效性。
引用
收藏
页码:453 / 458
页数:6
相关论文
共 5 条
  • [1] Sparse principal component analysis
    Zou, Hui
    Hastie, Trevor
    Tibshirani, Robert
    [J]. JOURNAL OF COMPUTATIONAL AND GRAPHICAL STATISTICS, 2006, 15 (02) : 265 - 286
  • [2] Cancer classification and prediction using logistic regression with Bayesian gene selection
    Zhou, XB
    Liu, KY
    Wong, STC
    [J]. JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (04) : 249 - 259
  • [3] A modified principal component technique based on the LASSO
    Jolliffe, IT
    Trendafilov, NT
    Uddin, M
    [J]. JOURNAL OF COMPUTATIONAL AND GRAPHICAL STATISTICS, 2003, 12 (03) : 531 - 547
  • [4] Simple principal components[J] . S. K.Vines.Journal of the Royal Statistical Society: Series C (Applied Statistics) . 2002 (4)
  • [5] Loading and correlations in the interpretation of principle compenents[J] . Jorge Cadima,Ian T. Jolliffe.Journal of Applied Statistics . 1995 (2)