对基于SNM数据清洗算法的优化

被引:16
作者
张建中 [1 ]
方正 [2 ]
熊拥军 [1 ]
袁小一 [1 ]
机构
[1] 中南大学信息科学与工程学院
[2] 中南大学化学化工学院
关键词
数据挖掘; 数据清洗; 重复记录; SNM算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。
引用
收藏
页码:2240 / 2245
页数:6
相关论文
共 8 条
[1]   面向XML数据库的智能数据清洗策略 [J].
刘波 ;
杨路明 ;
雷刚跃 ;
邓云龙 .
计算机工程, 2008, (16) :16-18
[2]   对基于MPN数据清洗算法的改进 [J].
李坚 ;
郑宁 .
计算机应用与软件, 2008, (02) :245-247
[3]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[4]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[5]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
[6]   TECHNIQUES FOR AUTOMATICALLY CORRECTING WORDS IN TEXT [J].
KUKICH, K .
COMPUTING SURVEYS, 1992, 24 (04) :377-439
[7]   DUPLICATE RECORD ELIMINATION IN LARGE DATA FILES [J].
BITTON, D ;
DEWITT, DJ .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 1983, 8 (02) :255-265
[8]  
Matching algorithms within a duplicate detection system. Monge A E. IEEE Data Engineering Bulletin . 2000