大规模化合物子结构检索的并行实现与优化

被引:7
作者
井银玲 [1 ,2 ]
李晓霞 [1 ]
袁小龙 [1 ]
郭力 [1 ]
机构
[1] 中国科学院过程工程研究所多相复杂系统国家重点实验室
[2] 中国科学院研究生院
关键词
化学子结构检索; 大规模化学结构检索; 集群并行; 化学数据库; 化学信息学;
D O I
10.16866/j.com.app.chem2010.06.004
中图分类号
O641.1 [化学键理论];
学科分类号
摘要
化合物的子结构检索在计算机辅助药物设计、波普学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是一个NP完备性的问题,获得用户可接受的平均检索时间一直是研究人员十分关注的问题,其方法主要有改进算法和提升硬件条件2个方面。当化学结构数据库的规模达到百万乃至千万级别时,尽管改进算法的方式能够获得一定的检索效率提升,但其提升的空间有限,因而,集群并行方式是大规模化合物子结构检索应用的必然选择。本文以ChemDB Portal的化学子结构检索系统为基础,实现了基于集群并行的化学子结构检索系统,并进行了任务均分、多线程并行等优化。在包含800万个化合物结构的化学结构数据库中,利用5个节点的小型集群,选取10个较为典型的提问结构进行子结构检索测试。测试结果为基于集群的化学子结构检索的平均检索时间由初始单节点时的34.1 min降低为2.75 min,检索效率平均提高12.4倍,表明在大规模乃至超大规模的数据条件下,集群并行化方式能够显著地提高子结构检索系统的执行效率。
引用
收藏
页码:728 / 734
页数:7
相关论文
共 11 条
[1]   一种新的分子二维子结构检索算法 [J].
孙婉怡 ;
何险峰 ;
温浩 .
计算机与应用化学, 2009, 26 (12) :1539-1542
[2]   基于SSH+ExtJS架构的化学数据知识框架管理 [J].
刘增才 ;
李晓霞 ;
袁小龙 ;
郭力 .
计算机与应用化学, 2008, (09) :1147-1151
[3]   开源软件在化学数据库分子结构检索中的应用 [J].
袁小龙 ;
李晓霞 ;
郭力 ;
聂峰光 .
计算机与应用化学, 2008, (09) :1143-1146
[4]   XML技术在化学深层网数据提取中的应用 [J].
卓流艺 ;
李晓霞 ;
郭力 .
计算机与应用化学, 2006, (11) :1137-1141
[5]   定向查询引擎在Web化学数据库集成检索中的应用 [J].
储春梅 ;
李晓霞 ;
郭力 .
计算机与应用化学, 2005, (08) :91-98
[6]   分布式多线程并行处理技术在大规模化学结构检索数据库系统中的应用 [J].
苏振强 ;
鲁先平 ;
石乐明 .
计算机与应用化学, 2004, (05) :659-664
[7]   基于甲骨文数据库管理系统的化学结构检索数据库的设计与实现 [J].
苏振强 ;
廖晨钟 ;
谢爱华 ;
鲁先平 ;
石乐明 .
计算机与应用化学, 2003, (05) :556-562
[8]   化学结构二维子结构检索的开发 [J].
刘冰 ;
周家驹 .
过程工程学报, 2003, (04) :376-380
[9]   VF算法在化学结构检索中的应用 [J].
李琰 ;
周家驹 .
计算机与应用化学, 2002, (05) :575-576+580
[10]  
并行计算导论[M]. 清华大学出版社 , 张林波[等]编著, 2006