整合分布异构数据资源、实现数据共享,为管理决策提供更加完整和可靠的数据服务支持,是当前及未来各领域深化信息系统建设发展的重要课题和方向。而从各种分布、异构数据源中抽取数据,并进行数据变换、数据合并和数据融合等加工处理,则是数据集成处理的一项最基本任务。
本文在充分研究现有数据集成方法和数据融合方法的基础上,结合课题组提出的“基于数据服务匹配的数据集成系统”框架体系,对其中“异构数据集成处理与数据服务管理”平台部分,进行了重新优化设计和改写,并增加了可针对不同数据源数据的融合处理模块。主要工作和贡献如下:
1.重新优化设计和改写了课题组原有的“异构数据集成处理与数据服务管理”平台。目前该平台已经能够初步工作,它实现了对异构数据源的统一查询接口,不仅能以直观、可视化的方式,定义数据集成处理需求,用类似图元绘图的方法将从多个数据源抽取数据、变换数据、合并数据等处理步骤,定义到一个数据集成处理描述包(DIPSP)中;而且可实现DIPSP包的数据服务单元封装、注册和数据服务响应执行。
2.在深入研究了国内外现有融合方法的基础上,提出了一种基于关键属性的知识融合方法,并将该方法应用到数据集成处理系统中,改善对异构数据进行自动合并处理的合理性。有关实验测试表明,此方法可以有效识别并融合异构数据源中存在的冲突实例,可以在更高层次上提高数据集成效果。