基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统

被引:0
作者
王春锋
机构
[1] 北京交通大学
关键词
信息抽取; Bubble-bootstrapping; 基因名称; 证候; 分子生物学; 关联分析;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着人类基因组计划(Human Genome Project)以及分子生物学、信息科学的发展,不同学科的生物医学数据“爆炸”式增长。如何整合这些数据资源发现其中隐藏的知识一直是系统生物学研究的难点。传统中医学和现代生物医学是完全不同的学科,是一个互补性知识系统。本文结合中医药文献库和Medline开展整合文本挖掘(Integrative Text Mining),对中医证和分子生物学进行的关联分析研究具有重要意义。 信息抽取是文本挖掘中一项重要技术,是在非结构化的自然语言文本中定位相应的结构化数据单元,从而使自由文本数据成为相应的结构化数据。信息抽取是文本挖掘的前期步骤和基础,基于信息抽取的文本挖掘系统是研究趋势所在。 本文在系统分析和阐述信息抽取技术的基础上,结合实际应用开展了生物医学文本挖掘研究。在利用Bubble-bootstrapping算法抽取中文实体名称研究的基础上,对该算法进行了必要的改进,将其应用到基因名称的抽取中。通过对2000篇英文摘要的抽取实验,表明Bubble-bootstrapping算法在英文实体名称抽取领域同样具有良好的应用前景。 其次,在信息整合的思路下,本文结合中医药文献和生物医学文献进行了中医证候基因相关关系知识发现研究。设计实现了基于整合挖掘的中医证和分子生物学知识的关联分析系统Medisco-3S。该系统具备Medline数据自动下载、术语实体识别、实体相互关系计算、可视化展现和网络图分析等功能。
引用
收藏
页数:80
共 22 条
[1]
证候、证、症的概念及其关系的研究 [J].
刘保延 ;
王永炎 .
中医杂志, 2007, (04) :293-296+298
[2]
使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[3]
复杂网络研究及其意义 [J].
吴彤 .
哲学研究, 2004, (08) :58-63+70
[4]
生物医学文献知识发现研究探讨及展望 [J].
周雪忠 ;
吴朝晖 ;
刘保延 .
复杂系统与复杂性科学, 2004, (03) :45-55
[5]
论中医证候中的复杂现象及相应的研究思路 [J].
郭蕾 ;
王永炎 .
中国中医基础医学杂志, 2004, (02) :3-5
[6]
从统计物理学看复杂网络研究 [J].
吴金闪 ;
狄增如 .
物理学进展, 2004, (01) :18-46
[7]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[8]
一种基于神经网络集成的规则学习算法 [J].
姜远 ;
陈兆乾 ;
周志华 .
计算机研究与发展, 2003, (10) :1419-1423
[9]
基于决策支持向量机的中文网页分类器 [J].
贺海军 ;
王建芬 ;
周青 ;
曹元大 .
计算机工程, 2003, (02) :47-48
[10]
辨证论治是中医临床医学的灵魂 [J].
邓铁涛 .
中医药学刊, 2002, (04) :394-395