共 5 条
数据仓库中重复记录清理算法研究
被引:4
作者:
钟嘉庆
张义芳
卢志刚
机构:
[1] 燕山大学电气工程学院
来源:
关键词:
数据清理;
重复记录清理;
重复记录识别;
数据仓库;
D O I:
10.19358/j.issn.1674-7720.2009.07.002
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。
引用
收藏
页码:4 / 6
页数:3
相关论文