聚类反馈学习的数据清洗研究

被引:5
作者
石彦华
李蜀瑜
机构
[1] 陕西师范大学计算机科学学院
关键词
数据清洗; 重复记录; 模式规约; 聚类学习; 反馈学习;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
重复记录的清除是数据清洗领域的核心问题,但如何实施有效的清除一直是研究的难点。提出了一种通过建立聚类反馈模式规约来验证重复记录的有效性方法。依据经过聚类后各个类别间的关联性关系分析,首先提出了聚类模式和反馈模式的概念和实现方法;然后给出了数据清洗中聚类反馈模式规约;最后应用项目案例验证了它的有效性。
引用
收藏
页码:127 / 131
页数:5
相关论文
共 12 条
[1]   对基于MPN数据清洗算法的改进 [J].
李坚 ;
郑宁 .
计算机应用与软件, 2008, (02) :245-247
[2]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[3]   基于领域本体的数据清洗研究 [J].
王浩 ;
徐宏炳 .
计算机工程与设计, 2006, (22) :4274-4276+4280
[4]   本体学习研究综述 [J].
杜小勇 ;
李曼 ;
王珊 .
软件学报, 2006, (09) :1837-1847
[5]   基于本体论和词汇语义相似度的Web服务发现 [J].
吴健 ;
吴朝晖 ;
李莹 ;
邓水光 .
计算机学报, 2005, (04) :595-602
[6]   一种使用双阈值的数据仓库环境下重复记录消除算法 [J].
洪圆 ;
孙未未 ;
施伯乐 ;
不详 .
计算机工程与应用 , 2005, (01) :168-170+216
[7]   基于核的K-均值聚类 [J].
孔锐 ;
张国宣 ;
施泽生 ;
郭立 .
计算机工程, 2004, (11) :12-13+80
[8]   基于DBSCAN聚类算法的研究与实现 [J].
荣秋生 ;
颜君彪 ;
郭国强 .
计算机应用, 2004, (04) :45-46+61
[9]   关系数据库中近似重复记录的识别 [J].
佘春红 ;
许向阳 .
计算机应用研究, 2003, (09) :36-39
[10]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082