基于距离的不确定离群点检测

被引:20
作者
于浩 [1 ]
王斌 [1 ]
肖刚 [1 ]
杨晓春 [1 ,2 ]
机构
[1] 东北大学信息科学与工程学院
[2] 中国人民大学数据工程与知识工程教育部重点实验室
关键词
不确定数据; 离群点检测; 过滤方法; 高效; 不确定数据模型;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.
引用
收藏
页码:474 / 484
页数:11
相关论文
共 3 条
  • [1] 基于局部信息熵的加权子空间离群点检测算法
    倪巍伟
    陈耿
    陆介平
    吴英杰
    孙志挥
    [J]. 计算机研究与发展, 2008, (07) : 1189 - 1194
  • [2] Exploratory Data Analysis. Tukey J W. Addison Wesley and Sons . 1994
  • [3] Outlier detection with uncertain data. Aggarwal C C,Yu P S. Proc of SDM . 2008