数据仓库中重复记录清理算法研究

被引:4
作者
钟嘉庆
张义芳
卢志刚
机构
[1] 燕山大学电气工程学院
关键词
数据清理; 重复记录清理; 重复记录识别; 数据仓库;
D O I
10.19358/j.issn.1674-7720.2009.07.002
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。
引用
收藏
页码:4 / 6
页数:3
相关论文
共 5 条
[1]   基于改进编辑距离和依存文法的汉语句子相似度计算 [J].
刘宝艳 ;
林鸿飞 ;
赵晶 .
计算机应用与软件, 2008, (07) :33-34+47
[2]   基于字面相似度的地理信息分类体系自动转换方法 [J].
张雪英 ;
闾国年 .
遥感学报, 2008, (03) :433-441
[3]   数据分析和清理中相关算法研究 [J].
冯玉才 ;
桂浩 ;
李华 ;
李又奎 .
小型微型计算机系统, 2005, (06) :1018-1022
[4]   一种使用双阈值的数据仓库环境下重复记录消除算法 [J].
洪圆 ;
孙未未 ;
施伯乐 ;
不详 .
计算机工程与应用 , 2005, (01) :168-170+216
[5]   后控规范的计算机处理 [J].
王源 ;
吴晓滨 ;
涂从文 ;
刘滨 ;
章元峰 ;
王金娥 ;
不详 .
现代图书情报技术 , 1993, (02) :4-7