随着人类基因组计划(Human Genome Project)以及分子生物学、信息科学的发展,不同学科的生物医学数据“爆炸”式增长。如何整合这些数据资源发现其中隐藏的知识一直是系统生物学研究的难点。传统中医学和现代生物医学是完全不同的学科,是一个互补性知识系统。本文结合中医药文献库和Medline开展整合文本挖掘(Integrative Text Mining),对中医证和分子生物学进行的关联分析研究具有重要意义。
信息抽取是文本挖掘中一项重要技术,是在非结构化的自然语言文本中定位相应的结构化数据单元,从而使自由文本数据成为相应的结构化数据。信息抽取是文本挖掘的前期步骤和基础,基于信息抽取的文本挖掘系统是研究趋势所在。
本文在系统分析和阐述信息抽取技术的基础上,结合实际应用开展了生物医学文本挖掘研究。在利用Bubble-bootstrapping算法抽取中文实体名称研究的基础上,对该算法进行了必要的改进,将其应用到基因名称的抽取中。通过对2000篇英文摘要的抽取实验,表明Bubble-bootstrapping算法在英文实体名称抽取领域同样具有良好的应用前景。
其次,在信息整合的思路下,本文结合中医药文献和生物医学文献进行了中医证候基因相关关系知识发现研究。设计实现了基于整合挖掘的中医证和分子生物学知识的关联分析系统Medisco-3S。该系统具备Medline数据自动下载、术语实体识别、实体相互关系计算、可视化展现和网络图分析等功能。