基于规则引擎的数据清洗

被引:19
作者
叶舟
王东
机构
[1] 上海交通大学软件学院
关键词
规则引擎; 数据清洗; 抽取-转换-装载;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。
引用
收藏
页码:52 / 54
页数:3
相关论文
共 5 条
[1]  
RETE:A Fast Algorithm for the Many Pattern/Many Object Pattern Match Problem. Forgy C L. Artificial Intelligence . 1982
[2]  
A Taxonomy of Data Quality Problems. Oliveira P,Rodrigues F,Henriques P,et al. Proc.of International Workshop on Data and Information Quality . 2005
[3]  
Data Warehousing[P]. GENNETTEN K DOUGLAS;RUDD MICHAEL L;LEHMEIER MICHELLE R.英国专利:GB2382186A,2003-05-21
[4]  
Drools Usage Manual. Peter L. http://drools.org/drools-manual-2.0-beta-12a.pdf . 2004
[5]  
Data Cleaning:Problems and Current Approaches. Rahm E,,Do Honghai. Data Engineering . 2000