基于属性熵和加权余弦相似度的离群算法

被引:9
作者
刘爱琴
荀亚玲
机构
[1] 太原科技大学计算机学院
关键词
属性熵; 余弦相似度; 离群数据; 天体光谱;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。
引用
收藏
页码:171 / 175
页数:5
相关论文
共 10 条
[1]
A fast outlier detection strategy for distributed high-dimensional data sets with mixed attributes [J].
Koufakou, Anna ;
Georgiopoulos, Michael .
DATA MINING AND KNOWLEDGE DISCOVERY, 2010, 20 (02) :259-289
[2]
Anomaly detection.[J].Varun Chandola;Arindam Banerjee;Vipin Kumar.ACM Computing Surveys (CSUR).2009, 3
[3]
A concept lattice based outlier mining method in low-dimensional subspaces [J].
Zhang, Jifu ;
Jiang, Yiyong ;
Chang, Kai H. ;
Zhang, Sulan ;
Cai, Jianghui ;
Hu, Lihua .
PATTERN RECOGNITION LETTERS, 2009, 30 (15) :1434-1439
[4]
An effective and efficient algorithm for high-dimensional outlier detection [J].
Aggarwal, CC ;
Yu, PS .
VLDB JOURNAL, 2005, 14 (02) :211-221
[5]
一种基于基尼指标的高维数据离群挖掘算法 [J].
石岩 ;
刘爱琴 ;
张继福 .
太原科技大学学报, 2013, 34 (03) :161-165
[6]
基于属性相关分析的离群数据并行挖掘算法 [J].
王磊 ;
张继福 .
太原科技大学学报, 2011, 32 (05) :364-369
[7]
信息熵度量的离群数据挖掘算法 [J].
张贺 ;
蔡江辉 ;
张继福 ;
乔衎 .
智能系统学报, 2010, 5 (02) :150-155
[8]
基于局部信息熵的加权子空间离群点检测算法 [J].
倪巍伟 ;
陈耿 ;
陆介平 ;
吴英杰 ;
孙志挥 .
计算机研究与发展, 2008, (07) :1189-1194
[9]
基于信息熵的相对离群点的检测方法:ENBROD [J].
于绍越 ;
商琳 .
南京大学学报(自然科学版), 2008, (02) :212-218
[10]
局部离群点挖掘算法研究 [J].
薛安荣 ;
鞠时光 ;
何伟华 ;
陈伟鹤 .
计算机学报, 2007, (08) :1455-1463