面向高维数据的低冗余top-k异常点发现方法

被引:6
作者
陈冠华 [1 ,2 ]
马秀莉 [1 ,2 ]
杨冬青 [1 ,3 ]
唐世渭 [1 ,2 ]
帅猛 [1 ,2 ]
谢昆青 [1 ,2 ]
机构
[1] 北京大学信息科学技术学院
[2] 机器感知与智能教育部重点实验室(北京大学)
[3] 高可信软件技术教育部重点实验室(北京大学)
关键词
数据挖掘; 异常检测; 高维数据; 低冗余; 异常度量;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式.
引用
收藏
页码:788 / 795
页数:8
相关论文
共 7 条
[1]
高维空间中的离群点发现 [J].
魏藜 ;
宫学庆 ;
钱卫宁 ;
周傲英 .
软件学报, 2002, (02) :280-290
[2]
An overview of anomaly detection techniques: Existing solutions and latest technological trends [J].
Patcha, Animesh ;
Park, Jung-Min .
COMPUTER NETWORKS, 2007, 51 (12) :3448-3470
[3]
A Survey of Outlier Detection Methodologies.[J].Victoria J. Hodge;Jim Austin.Artificial Intelligence Review.2004, 2
[4]
Outlier detection for high dimensional data [J].
Aggarwal, CC ;
Yu, PS .
SIGMOD RECORD, 2001, 30 (02) :37-46
[5]
Efficient algorithms for mining outliers from large data sets [J].
Ramaswamy, S ;
Rastogi, R ;
Shim, K .
SIGMOD RECORD, 2000, 29 (02) :427-438
[6]
LOF.[J].Markus M. Breunig;Hans-Peter Kriegel;Raymond T. Ng;Jörg Sander.ACM SIGMOD Record.2000, 2
[7]
Temporal sequence learning and data reduction for anomaly detection.[J].Terran Lane;Carla E. Brodley.ACM Transactions on Information and System Security (TISSEC).1999, 3