随着Internet及其相:关技术的飞速发展,企业信息化的要求越来越迫切,其中一个很重要的方面就是企业数据的管理。如何获取异构环境中的有用数据并加以综合利用,即构建异构数据集成系统,成为一个引起广泛关注的研究领域。本文在综合分析目前异构数据集成理论和方法的基础上,着重研究了系统实现中关键问题。
论文首先提出异构数据集成模型。模型的抽取过程采用的是一种由用户的需要和期望驱动的集成方法。当数据源“插入”系统时并不立刻抽取数据,而只是在元数据库中存储数据源的描述信息。同时,它集成了所有可以提供JDBC/ODBC接口的数据库以及未来可以提供JOLAP接口的数据仓库、各种普通使用文件系统和Web数据。
接着,设计并实现了异构数据库系统和文件系统数据集成模块,并提供了一个统一的数据访问接口,极大地提高了系统的集成能力。
然后,在提出的关于Web数据集成的3点研究假设前提下,探讨了基于规则树的Wrapper生成流程。它包括预处理、生成HTML树、生成模式树、获取映射规则、生成规则树、修复规则树和执行Wrapper。考虑到Web站点经常发生变化,研究了Wrapper维护的流程。它包括识别数据特征、定义语义块和修复规则树。通过对试验数据的分析,证明该方法合适Web数据的抽取。
最后,对异构数据集成系统实现中的研究开发工作进行了总结,并阐述了将来进一步的研究工作。