NLOF:一种新的基于密度的局部离群点检测算法

被引:92
作者
王敬华
赵新想
张国燕
刘建银
机构
[1] 华中师范大学计算机学院
关键词
数据挖掘; 离群点检测; 信息熵; 聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。在真实数据集上对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。
引用
收藏
页码:181 / 185
页数:5
相关论文
共 5 条
[1]
基于信息论的高维海量数据离群点挖掘 [J].
张净 ;
孙志挥 ;
宋余庆 ;
倪巍伟 ;
晏燕华 .
计算机科学, 2011, 38 (07) :148-151+161
[2]
一种基于密度的局部离群点检测算法DLOF [J].
胡彩平 ;
秦小麟 .
计算机研究与发展, 2010, 47 (12) :2110-2116
[3]
局部离群点挖掘算法研究 [J].
薛安荣 ;
鞠时光 ;
何伟华 ;
陈伟鹤 .
计算机学报, 2007, (08) :1455-1463
[4]
An omission approach for detecting outliers in fuzzy regression models [J].
Hung, Wen-Liang ;
Yang, Miin-Shen .
FUZZY SETS AND SYSTEMS, 2006, 157 (23) :3109-3122
[5]
Efficient algorithms for mining outliers from large data sets [J].
Ramaswamy, S ;
Rastogi, R ;
Shim, K .
SIGMOD RECORD, 2000, 29 (02) :427-438