基于网格和密度的海量数据增量式离群点挖掘算法

被引:17
作者
张净 [1 ,2 ]
孙志挥 [1 ]
杨明 [3 ]
倪巍伟 [1 ]
杨宜东 [1 ]
机构
[1] 东南大学计算机科学与工程系
[2] 江苏大学电气信息工程学院
[3] 南京师范大学计算机科学与技术学院
关键词
海量数据; 网格; 密度; 离群点挖掘; 增量; LOF算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高.
引用
收藏
页码:823 / 830
页数:8
相关论文
共 4 条
[1]
基于动态网格的数据流离群点快速检测算法 [J].
杨宜东 ;
孙志挥 ;
朱玉全 ;
杨明 ;
张柏礼 .
软件学报, 2006, (08) :1796-1803
[2]
一种增强的局部异常挖掘方法 [J].
蒋盛益 ;
李庆华 ;
王卉 ;
孟中楼 ;
不详 .
计算机研究与发展 , 2005, (02) :210-216
[3]
IncLOF:动态环境下局部异常的增量挖掘算法 [J].
杨风召 ;
朱扬勇 ;
施伯乐 .
计算机研究与发展, 2004, (03) :477-484
[4]
GridOF:面向大规模数据集的高效离群点检测算法 [J].
李存华 ;
孙志挥 .
计算机研究与发展, 2003, (11) :1586-1592