基于支持向量机分类的b/y离子峰选取算法及肽序列标签生成算法的研究

被引:0
作者
王中胜
机构
[1] 中国人民解放军军事医学科学院
关键词
蛋白质组学; 串联质谱; 离子阱; 肽序列标签; 支持向量机; 动态规划;
D O I
暂无
年度学位
2007
学位类型
硕士
摘要
蛋白质组学研究是细胞生物学领域里日趋成熟和应用日益广泛的一门技术,它可以规模化地鉴定出蛋白质混合物甚至大的组织器官样品中蛋白质的组成成分,并分析蛋白质翻译后修饰。生物质谱技术是蛋白质组学的关键技术,而其中最关键的部分是肽序列测序。已有的肽序列测序算法包括数据库搜索算法、从头测序算法,以及肽序标签搜库算法。这些算法的首要步骤是质谱峰的过滤,它与整个算法的复杂性有关。以往对高精度质谱数据的峰选取工作取得了较好的效果,而对低精度质谱数据的峰选取工作却没有合适的方法。 本研究针对低精度质谱数据,提出了基于支持向量机分类的b/y离子峰选取算法,通过仅选取质谱图谱中的b/y离子峰,简化质谱图的构建和减少了肽序列标签生成步骤的计算量,提高了结果的可靠性。 本研究主要基于以下假设:1.所有参与质谱图构建的质谱峰均为b/y离子峰;2.b/y离子峰与噪声的本质区别在于有无同位素峰以及是否发生中性丢失(主要考虑的中性丢失包括:-H2O,-NH3,-H2O-H2O,-H2O-NH3),而不是峰强度的高低;3.b/y离子峰与其他碎片离子的区别在于有无互补离子。 为了验证所建立的基于支持向量机分类的b/y离子峰选取算法的可靠性,本研究对一批标准蛋白质数据(1281个谱)进行了训练和测试,并与以往广泛使用的峰过滤算法作了比较。结果表明,b/y离子峰选取算法能够取得很好的质谱峰过滤效果,比以往普遍使用的质谱峰选取算法有了提高,为质谱图的构建和肽序列标签生成算法提供了可靠的基础。 在肽序列标签生成算法的研究中,我们提出了一种基于b/y离子峰选取的算法。对这一方法的测试及与常用肽序列标签生成算法的比较表明,我们算法的可靠性与当前这一领域里效果最好的软件PepNovoTag的可靠性相当,比GutenTag的可靠性要高。
引用
收藏
页数:49
共 4 条
[1]
Evaluation of multidimensional chromatography coupled with tandem mass spectrometry (LC/LC-MS/MS) for large-scale protein analysis: the yeast proteome..Peng; J. et al;.J Proteome Res.2003,
[2]
Introduction to Algorithms..Cormen TH et al;.The MIT Press.2001,
[3]
Sequence database searches via denovo peptide sequencing by tandem mass spectrometry..Taylor JA;Johnson RS;.Rapid Commun Mass Spectrom.1997,
[4]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297