近年来,在生物医学领域随着其文献数量的快速增长,利用数据挖掘技术从生物医学文献中获取所需的生物医学知识已经成为生物信息学领域的研究热点。蛋白质发挥其生物功能最基础和重要的一种方式就是通过蛋白质间相互作用(Protein-Protein Interaction,PPI),而大量的蛋白质相互作用信息都以非结构化数据的形式记录在生物医学文献中,人工检阅的方式查找文献中的PPI信息十分耗时费力,因此,利用文本挖掘技术对生物医学文献中的蛋白质相互作用关系进行挖掘和分析,从而准确的提取PPI关系具有十分重要的意义。现有的PPI关系抽取的研究中将从生物医学文献中抽取PPI关系视为一个二值分类问题,PPI抽取任务中多采用基于统计和机器学习的算法,通过对生物文本进行特征提取形成特征向量,从而构建分类模型,取得了较好的抽取效果。但是现有研究中所采用的机器学习方法通常是监督学习方法,需要大量已标注的PPI关系数据来构建分类模型,而在生物医学领域,利用人工标注PPI关系语料需要花费大量的人力和时间成本。为了降低构建分类模型对标注数据的要求,本文从以下两个方面进行研究:1、基于远程监督和迁移学习提取蛋白质相互作用关系将待分类的PPI关系数据集视为目标领域数据集,为降低目标领域PPI关系抽取中对标注数据的需求,本研究使用迁移学习,通过对不同分布的源领域PPI关系数据集进行知识迁移,来构建关系抽取模型,从而对目标领域待分类PPI样本进行分类。本研究基于远程监督思想构建人工标注语料作为源领域PPI数据集,首先从IntAct蛋白质相互作用数据库中下载PPI数据作为关系知识库,并从PubMed数据库中爬取生物医学文献摘要作为原始语料集,根据知识库中的PPI对在原始语料集中进行映射,通过启发式的匹配来获取包含有该PPI的语句,将原始语料集中存在映射的PPI作为正例样本,否则作为负例样本,以此得到人工标注的PPI数据集。使用基于实例的迁移学习方法TrAdaboost在构建的源领域PPI数据集和部分目标PPI数据集上构建分类模型,对目标领域的PPI样本进行分类。在3个标准数据集上的实验结果表明,本研究利用远程监督构建的人工数据集能够很好的辅助算法建立分类模型,在目标领域标注样本较少的情况下,通过迁移人工数据集的知识对目标领域PPI关系进行抽取具有较好的性能。2、PU(Positive Unlabeled)场景下基于迁移学习和远程监督提取蛋白质相互作用在实际应用中,数据经常是未标注的或少量标注的,如本研究中涉及到的PPI数据集。由于实验条件的制约,现有的很多PPI关系并不能确定其是否有相互作用,因此可以将这部分数据视为未标注数据集,仅有少量的PPI关系经实验验证后确实存在相互作用,这部分数据可以视为正例样本。在这种情况下,传统的有监督算法就无法构建高效的分类模型来对生物文献中的PPI关系进行识别。在远程监督的基础上,本研究从迁移学习和PU学习两个角度展开研究,提出了在PU场景下基于迁移学习和远程监督的蛋白质相互作用关系抽取方法——TPAODE算法。该方法收集目标PPI数据集的特征信息,利用数据引力方法对源PPI数据集样本赋予权重进行知识迁移,基于贝叶斯理论在加权的源PPI数据集上估算概率参数,利用静态分类器集成技术构建基于权重的PU学习算法。实验结果表明,本研究提出的TPAODE算法对目标领域PPI数据集不需要类别标注,仅在源领域PPI数据集上标注部分有相互作用关系的样本,基于源领域PPI数据集和目标领域PPI数据集构建分类模型,具有比传统PU方法相当或更好的性能。为了进一步降低模型对标注数据的要求,本研究将前文利用远程监督构建的人工PPI数据集作为源领域数据集,基于仅有少量正例样本的源数据集和目标数据集学习模型,对目标领域的PPI样本进行分类,结果表明,本研究提出的TPAODE算法利用远程监督数据集依然比现有的PU学习方法PNB和PTAN具有更优异的分类性能。