XML技术在化学深层网数据提取中的应用

被引:11
作者
卓流艺
李晓霞
郭力
机构
[1] 中国科学院过程工程研究所多相反应实验室
关键词
Web数据提取; 化学深层网; XML; XSLT; XPath; 化学数据库;
D O I
10.16866/j.com.app.chem2006.11.026
中图分类号
TP312.2 [];
学科分类号
摘要
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。
引用
收藏
页码:1137 / 1141
页数:5
相关论文
共 1 条
[1]   定向查询引擎在Web化学数据库集成检索中的应用 [J].
储春梅 ;
李晓霞 ;
郭力 .
计算机与应用化学, 2005, (08) :91-98