近些年由于因特网和电子商务的发展,企业内部基于WEB和办公系统的信息量增长迅速,这些数据具有不确定的子类型和属性,包含复杂数据类型和复杂的引用关系,如WEB上的网页、各种文档等,我们称这些数据为半结构化数据。如何将这些半结构化数据同传统的结构化数据集成在一起,是当今一个重要的研究课题。其中,解决半结构化数据模型和结构化数据模型的集成,实现这两类数据的相互转换,是解决问题的关键。
针对此领域目前存在的不足,本文提出了一种基于XML的半结构化数据集成技术:即利用XML作为中间件来对半结构化数据进行集成。将半结构化数据集成分为相对独立且相互关联的两个部分:即半结构化数据模型的建立、半结构化数据模型与结构化数据模型之间的双向映射。其中半结构化数据模型的建立负责将半结构化数据进行规范化、抽取数据模式;半结构化数据模型与结构化数据模型间的双向映射负责通过映射算法将抽取而得的半结构化数据模型与结构化数据模型实现互转化,进而达到半结构化数据集成的目的。论文首先分析了半结构化数据的数据结构和XML的相关技术、基本内容和特点,提出一种将半结构化数据规范化的方法。阐述了XML与关系数据库的关系、建立XML数据与关系数据库间的转换机制。最后通过定义了RTD、MM和MT三个数据模型,结合实际项目对如何应用这些理论进行了阐述。
随着信息化的逐步推进和信息量的飞速膨胀,数据集成的范畴会越来越广,对各种数据进行集成的要求也会越来越迫切。论文的开题来源于大庆石油管理局实际的项目,因此具有重要的理论和实际价值。