随着生物信息学和医学的迅速发展,以及各种生物的基因和蛋白质的研究,产生了越来越多的庞大的生物基因序列数据通过分析这些序列数据可以获得对人类有益的有关生物结构和功能的信息。数据挖掘技术尤其是聚类分析技术是基因序列分析的一种重要的手段,本文着重研究基因序列图形表达和基于图形表达的基因序列的聚类技术分析与应用。
本文提出了一种基于生物学特征的非退化3-D图形表达方法,利用此图形表达来表征基因序列不仅使原始序列的生物学特征得以保留,而且还克服了图形的非退化现象。在建立基因序列矩阵过程中引入了几何中心,采用矩阵的最大特征值不变量来表征原始基因序列。
在基因序列图形表达数据聚类分析中,本文提出一种基于多维伪F统计量的动态模糊K-均值聚类分析方法。该聚类分析方法能保证最终类内散步矩阵之迹达到最小,把多维空间的数据有效的分为具有特定数目的不同的类,给出最佳聚类个数。利用文中基因序列图形表达建立H5N1病毒基因序列图形表达数据对本文聚类分析方法进行验证,结果表明该聚类分析方法具有较好的合理性。
在BIRCH聚类算法分析研究中,详细分析讨论了BIRCH算法中存在的不足,并针对其不足进行一定的改进,提出了一种基于离差平方和的改进多阀值BIRCH算法,充分利用离差平方和来建立簇与簇的相关性,相对于单纯以簇之间的中心距离来建立相关性有一定的改进,同时在分裂因子的确定上采用了簇中直径的最大值,克服因采用经验值确定分裂因子的缺陷。最后,引入到基因序列图形表达数据聚类分析应用中。