基于无监督学习的数据清洗算法

被引:3
作者
孙铁民 [1 ]
于杰 [2 ]
尚程 [3 ]
田大新 [3 ]
张丽华 [1 ]
机构
[1] 吉林大学科技处
[2] 吉林大学通信工程学院
[3] 吉林大学计算机科学与技术学院
关键词
数据仓库; 数据抽取; 数据转换; 数据清洗; 数据装载;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法。该算法采用基于Hebb ian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级。在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确。实验表明,该算法能准确地完成实体识别。
引用
收藏
页码:599 / 604
页数:6
相关论文
共 4 条
[1]   面向数据质量的ETL过程建模与实现 [J].
贾自艳 ;
黄友平 ;
罗平 ;
李嘉佑 ;
秦亮曦 ;
史忠植 .
系统仿真学报, 2004, (05) :907-911+914
[2]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[3]  
Arktos : towards the modeling, design, control and execution of ETL processes[J] . Panos Vassiliadis,Zografoula Vagena,Spiros Skiadopoulos,Nikos Karayannidis,Timos Sellis.Information Systems . 2001 (8)
[4]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)