一种在线数据清洗方法

被引:2
作者
韩京宇
胡孔法
徐立臻
董逸生
机构
[1] 东南大学计算机科学与工程系
关键词
数据清洗; 分枝限界; B+树;
D O I
暂无
中图分类号
TP311.11 [];
学科分类号
摘要
提出一种新的在线数据清洗方法:将确认为干净的参照表中的记录字符串映射成高维空间中的点后进行聚类划分,然后利用B+树对划分中的点进行索引从而将高维空间的查询转换成一维空间的范围查询.输入表中的元组利用索引采用分枝限界策略搜索KNN(Knearestneighbors)记录从而完成与其最匹配记录的识别.理论分析和实验表明这是一种解决在线数据清洗的有效途径.
引用
收藏
页码:292 / 296
页数:5
相关论文
empty
未找到相关数据