基因序列图形表达及聚类分析应用研究

被引:0
作者
周迎春
机构
[1] 湖南大学
关键词
基因序列; 图形表达; 伪F统计量; 模糊聚类; BIRCH算法;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着生物信息学和医学的迅速发展,以及各种生物的基因和蛋白质的研究,产生了越来越多的庞大的生物基因序列数据通过分析这些序列数据可以获得对人类有益的有关生物结构和功能的信息。数据挖掘技术尤其是聚类分析技术是基因序列分析的一种重要的手段,本文着重研究基因序列图形表达和基于图形表达的基因序列的聚类技术分析与应用。 本文提出了一种基于生物学特征的非退化3-D图形表达方法,利用此图形表达来表征基因序列不仅使原始序列的生物学特征得以保留,而且还克服了图形的非退化现象。在建立基因序列矩阵过程中引入了几何中心,采用矩阵的最大特征值不变量来表征原始基因序列。 在基因序列图形表达数据聚类分析中,本文提出一种基于多维伪F统计量的动态模糊K-均值聚类分析方法。该聚类分析方法能保证最终类内散步矩阵之迹达到最小,把多维空间的数据有效的分为具有特定数目的不同的类,给出最佳聚类个数。利用文中基因序列图形表达建立H5N1病毒基因序列图形表达数据对本文聚类分析方法进行验证,结果表明该聚类分析方法具有较好的合理性。 在BIRCH聚类算法分析研究中,详细分析讨论了BIRCH算法中存在的不足,并针对其不足进行一定的改进,提出了一种基于离差平方和的改进多阀值BIRCH算法,充分利用离差平方和来建立簇与簇的相关性,相对于单纯以簇之间的中心距离来建立相关性有一定的改进,同时在分裂因子的确定上采用了簇中直径的最大值,克服因采用经验值确定分裂因子的缺陷。最后,引入到基因序列图形表达数据聚类分析应用中。
引用
收藏
页数:74
共 22 条
[1]
基于多维伪F统计量的基因表达动态聚类分析方法研究 [J].
骆嘉伟 ;
李仁发 ;
张白妮 .
系统仿真学报, 2006, (03) :586-589+601
[3]
DNA序列二维图表示和有关分析 [J].
刘西奎 ;
李艳 ;
许进 .
自然科学进展, 2004, (09)
[4]
基于划分的模糊聚类算法 [J].
张敏 ;
于剑 .
软件学报, 2004, (06) :858-868
[5]
RNA-Z曲线及其在病毒基因识别中的应用 [J].
韩乐 ;
莫忠息 .
生物数学学报, 2004, (02) :245-250
[6]
多阈值BIRCH聚类算法及其应用 [J].
邵峰晶 ;
张斌 ;
于忠清 .
计算机工程与应用, 2004, (12) :174-176+195
[7]
基于伪F统计量的模糊聚类方法在基因表达数据分析中的应用 [J].
易东 ;
张彦琦 ;
王文昌 ;
张蔚 ;
杨梦苏 ;
黄明辉 ;
方志俊 .
中国卫生统计, 2002, (03)
[8]
一种新的DNA序列映射规则及其分析应用 [J].
王宏漫 ;
欧宗瑛 .
信号处理, 2002, (02) :133-136
[9]
DNA序列的一类非退化的2-D图表示 [J].
王世英 ;
李湘露 .
中原工学院学报, 2002, (01) :4-6+10
[10]
用几何学方法分析DNA序列 [J].
张春霆 .
中国科学基金, 1999, (03)