基于生物医学文本挖掘的蛋白质间相互作用关系抽取方法的研究

被引:0
作者
包振栋
机构
[1] 西北农林科技大学
关键词
蛋白质关系抽取; 迁移学习; 正例未标注学习; 远程监督;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
近年来,在生物医学领域随着其文献数量的快速增长,利用数据挖掘技术从生物医学文献中获取所需的生物医学知识已经成为生物信息学领域的研究热点。蛋白质发挥其生物功能最基础和重要的一种方式就是通过蛋白质间相互作用(Protein-Protein Interaction,PPI),而大量的蛋白质相互作用信息都以非结构化数据的形式记录在生物医学文献中,人工检阅的方式查找文献中的PPI信息十分耗时费力,因此,利用文本挖掘技术对生物医学文献中的蛋白质相互作用关系进行挖掘和分析,从而准确的提取PPI关系具有十分重要的意义。现有的PPI关系抽取的研究中将从生物医学文献中抽取PPI关系视为一个二值分类问题,PPI抽取任务中多采用基于统计和机器学习的算法,通过对生物文本进行特征提取形成特征向量,从而构建分类模型,取得了较好的抽取效果。但是现有研究中所采用的机器学习方法通常是监督学习方法,需要大量已标注的PPI关系数据来构建分类模型,而在生物医学领域,利用人工标注PPI关系语料需要花费大量的人力和时间成本。为了降低构建分类模型对标注数据的要求,本文从以下两个方面进行研究:1、基于远程监督和迁移学习提取蛋白质相互作用关系将待分类的PPI关系数据集视为目标领域数据集,为降低目标领域PPI关系抽取中对标注数据的需求,本研究使用迁移学习,通过对不同分布的源领域PPI关系数据集进行知识迁移,来构建关系抽取模型,从而对目标领域待分类PPI样本进行分类。本研究基于远程监督思想构建人工标注语料作为源领域PPI数据集,首先从IntAct蛋白质相互作用数据库中下载PPI数据作为关系知识库,并从PubMed数据库中爬取生物医学文献摘要作为原始语料集,根据知识库中的PPI对在原始语料集中进行映射,通过启发式的匹配来获取包含有该PPI的语句,将原始语料集中存在映射的PPI作为正例样本,否则作为负例样本,以此得到人工标注的PPI数据集。使用基于实例的迁移学习方法TrAdaboost在构建的源领域PPI数据集和部分目标PPI数据集上构建分类模型,对目标领域的PPI样本进行分类。在3个标准数据集上的实验结果表明,本研究利用远程监督构建的人工数据集能够很好的辅助算法建立分类模型,在目标领域标注样本较少的情况下,通过迁移人工数据集的知识对目标领域PPI关系进行抽取具有较好的性能。2、PU(Positive Unlabeled)场景下基于迁移学习和远程监督提取蛋白质相互作用在实际应用中,数据经常是未标注的或少量标注的,如本研究中涉及到的PPI数据集。由于实验条件的制约,现有的很多PPI关系并不能确定其是否有相互作用,因此可以将这部分数据视为未标注数据集,仅有少量的PPI关系经实验验证后确实存在相互作用,这部分数据可以视为正例样本。在这种情况下,传统的有监督算法就无法构建高效的分类模型来对生物文献中的PPI关系进行识别。在远程监督的基础上,本研究从迁移学习和PU学习两个角度展开研究,提出了在PU场景下基于迁移学习和远程监督的蛋白质相互作用关系抽取方法——TPAODE算法。该方法收集目标PPI数据集的特征信息,利用数据引力方法对源PPI数据集样本赋予权重进行知识迁移,基于贝叶斯理论在加权的源PPI数据集上估算概率参数,利用静态分类器集成技术构建基于权重的PU学习算法。实验结果表明,本研究提出的TPAODE算法对目标领域PPI数据集不需要类别标注,仅在源领域PPI数据集上标注部分有相互作用关系的样本,基于源领域PPI数据集和目标领域PPI数据集构建分类模型,具有比传统PU方法相当或更好的性能。为了进一步降低模型对标注数据的要求,本研究将前文利用远程监督构建的人工PPI数据集作为源领域数据集,基于仅有少量正例样本的源数据集和目标数据集学习模型,对目标领域的PPI样本进行分类,结果表明,本研究提出的TPAODE算法利用远程监督数据集依然比现有的PU学习方法PNB和PTAN具有更优异的分类性能。
引用
收藏
页数:86
共 30 条
[1]
基于机器学习的蛋白质相互作用文献挖掘方法研究进展 [J].
李满生 ;
常乘 ;
马洁 ;
朱云平 .
中国科学:生命科学, 2016, 46 (11) :1235-1248
[2]
P-AnDT:平均n依赖决策树的正例未标注学习算法 [J].
张金蕾 ;
李梅 ;
张阳 ;
梁春泉 ;
王勇 .
计算机应用研究, 2016, 33 (07) :1941-1944+1951
[3]
基于PU学习的软件故障检测研究 [J].
张荷 ;
李梅 ;
张阳 ;
蔡晓妍 .
计算机应用研究, 2015, 32 (11) :3324-3327+3331
[4]
利用中文在线资源的远程监督人物关系抽取 [J].
潘云 ;
布勒布丽汗·伊沙巴依 ;
杨静 ;
尹敏 .
小型微型计算机系统, 2015, 36 (04) :701-706
[5]
基于随机森林的正例与未标注学习 [J].
邵强 ;
张阳 ;
蔡晓妍 .
计算机工程与设计, 2014, 35 (12) :4329-4334
[6]
迁移学习研究进展 [J].
庄福振 ;
罗平 ;
何清 ;
史忠植 .
软件学报, 2015, 26 (01) :26-39
[7]
基于上下文环境和句法分析的蛋白质关系抽取 [J].
王健 ;
冀明辉 ;
林鸿飞 ;
杨志豪 .
计算机应用, 2012, 32 (04) :1074-1077
[8]
蛋白质相互作用信息的文本挖掘研究进展 [J].
李满生 ;
刘齐军 ;
李栋 ;
刘培磊 ;
朱云平 .
中国科学:生命科学, 2010, 40 (09) :805-819
[9]
一种基于引力的聚类方法 [J].
蒋盛益 ;
李庆华 .
计算机应用, 2005, (02) :286-288+300
[10]
A Review of Feature Selection and Feature Extraction Methods Applied on Microarray Data.[J].Zena M. Hira;Duncan F. Gillies;Huixiao Hong.Advances in Bioinformatics.2015,