面向数据质量的ETL过程建模与实现

被引:18
作者
贾自艳
黄友平
罗平
李嘉佑
秦亮曦
史忠植
机构
[1] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
数据仓库; 数据质量; 抽取-转换-装载(ETL); 数据挖掘; 数据清洗;
D O I
10.16182/j.cnki.joss.2004.05.012
中图分类号
TP311 [程序设计、软件工程];
学科分类号
摘要
为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。
引用
收藏
页码:907 / 911+914 +914
页数:6
相关论文
共 5 条
  • [1] 多策略通用数据采掘工具MSMiner
    游湘涛
    叶施仁
    史忠植
    [J]. 计算机研究与发展, 2001, (05) : 581 - 586
  • [2] 知识发现[M]. 清华大学出版社 , 史忠植著, 2002
  • [3] Towards quality-oriented data warehouse usage and evolution
    Vassiliadis, P
    Bouzeghoub, M
    Quix, C
    [J]. INFORMATION SYSTEMS, 2000, 25 (02) : 89 - 115
  • [4] Architecture and quality in data warehouses: An extended repository approach[J] . Matthias Jarke,Manfred A. Jeusfeld,Christoph Quix,Panos Vassiliadis.Information Systems . 1999 (3)
  • [5] A Model for Data Warehouse Operational Processes. P. Vassiliadis,C. Quix,Y. Vassiliou. Proceedings of The 12th Conference on Advanced Information Systems Engineering (CaiSE’00) . 2000