基于聚类划分的两阶段离群点检测算法

被引:13
作者
杨福萍 [1 ,2 ]
王洪国 [1 ]
董树霞 [3 ]
牛家洋 [1 ,2 ]
丁艳辉 [1 ,2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东省分布式计算机软件新技术重点实验室
[3] 山东女子学院
关键词
层次聚类; K-均值; 信息熵; 距离和; 离群点检测;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对基于距离的离群点检测算法受全局阈值的限制,只能检测全局离群点,提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值,然后再利用K-means的方法将数据集划分成若干个微聚类;其次为了提高挖掘效率,提出基于信息熵的聚类过滤机制,判定微聚类中是否包含离群点;最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明,该算法效率高、检测精度高、时间复杂度低。
引用
收藏
页码:1942 / 1945
页数:4
相关论文
共 6 条
  • [1] 聚类分析和离群点识别技术研究及其应用.[D].夏勇.哈尔滨工程大学.2008, 06
  • [2] 孤立点挖掘及其内涵知识发现的研究与应用.[D].陆声链.广西师范大学.2005, 08
  • [3] 一种基于密度的局部离群点检测算法DLOF
    胡彩平
    秦小麟
    [J]. 计算机研究与发展, 2010, 47 (12) : 2110 - 2116
  • [4] 基于边界和距离的离群点检测
    江峰
    杜军威
    眭跃飞
    曹存根
    [J]. 电子学报, 2010, 38 (03) : 700 - 705
  • [5] 局部离群点挖掘算法研究
    薛安荣
    鞠时光
    何伟华
    陈伟鹤
    [J]. 计算机学报, 2007, (08) : 1455 - 1463
  • [6] 空间离群点挖掘技术的研究.[D].薛安荣.江苏大学.2008, 09