对基于SNM数据清洗算法的优化

被引：16

作者：

张建中 ^{[1
]}

方正 ^{[2
]}

熊拥军 ^{[1
]}

袁小一 ^{[1
]}

机构：

[1] 中南大学信息科学与工程学院

[2] 中南大学化学化工学院

来源：

中南大学学报(自然科学版) | 2010年 / 41卷 / 06期

关键词：

数据挖掘; 数据清洗; 重复记录; SNM算法;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。

引用

页码：2240 / 2245

页数：6

共 8 条

[1] 面向XML数据库的智能数据清洗策略 [J].

刘波 ;

杨路明 ;

雷刚跃 ;

邓云龙 .

计算机工程, 2008, (16) :16-18

[2] 对基于MPN数据清洗算法的改进 [J].

李坚 ;

郑宁 .

计算机应用与软件, 2008, (02) :245-247

[3] 数据质量和数据清洗研究综述 [J].

郭志懋 ;

周傲英 .

软件学报, 2002, (11) :2076-2082

[4] 一种高效的检测相似重复记录的方法 [J].

邱越峰 ;

田增平 ;

季文贇 ;

周傲英 .

计算机学报, 2001, (01) :69-77

[5]

Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)

[6] TECHNIQUES FOR AUTOMATICALLY CORRECTING WORDS IN TEXT [J].

KUKICH, K .

COMPUTING SURVEYS, 1992, 24 (04) :377-439

[7] DUPLICATE RECORD ELIMINATION IN LARGE DATA FILES [J].

BITTON, D ;

DEWITT, DJ .

ACM TRANSACTIONS ON DATABASE SYSTEMS, 1983, 8 (02) :255-265

[8]

Matching algorithms within a duplicate detection system. Monge A E. IEEE Data Engineering Bulletin . 2000

← 1 →