位置编码在数据仓库ETL中的应用

被引:12
作者
张永
迟忠先
机构
[1] 大连理工大学计算机系
关键词
数据清洗; 位置编码; 数据仓库; ETL; 相似重复记录;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。
引用
收藏
页码:50 / 52
页数:3
相关论文
共 2 条
[1]  
数据仓库与数据挖掘.[M].安淑芝等编著;.清华大学出版社.2005,
[2]   地理编码在空间数据仓库ETL中的应用 [J].
陈细谦 ;
迟忠先 ;
昃宗亮 ;
苏立强 .
小型微型计算机系统, 2005, (04) :628-630