目前信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势,因此大多数过去遗留下来的异构系统已不能满足这样的需求。企业信息和数据的集成交换需求越来越强烈。因为数据集成和交换必须解决复杂的数据处理过程,所以出现了专门的数据抽取、转换和载入(Extract,Transform,Load)工具——即ETL工具。ETL工具在数据集成过程中起到了举足轻重的作用。
论文首先介绍了ETL工具的相关背景知识,并分析了ETL工具的研究现状。分析得出结论:现有关于ETL的研究对源-目数据的映射关系重视不够,而这一内容是数据抽取转换的核心。基于这一结论,在第一章提出了本文的研究目标和研究内容。
根据论文的研究目标,本文论述了一种基于网络的异种数据抽取转换工具ETLA(Extract-Transform-Load-Analysis的缩写)的分析和设计,该工具根据数据映射关系定义ETL任务,根据映射关系生成执行脚本。论文在第二章阐述了该工具的系统框架、功能划分,以及数据处理和数据映射流程。
本文随后重点研究了ETLA中的数据映射关系。分析了各种数据映射后,提出了数据映射关系的形式化描述。在ETLA中,映射关系是以表达式表示。表达式由源数据项、目标数据项、以及源数据项之间的关系构成,并符合一定表示规则。按照表达式表示映射关系后,ETLA的数据转换模块将解析表达式,生成数据转换执行脚本,并执行。
论文最后设计了ETLA映射索引库。索引库按照主题组织源数据,用户能够根据目标表的定义能尽快地找到与之映射的数据源,定义源-目数据映射关系。