基于属性相关分析的局部离群数据挖掘算法研究及其应用

被引:0
作者
王磊
机构
[1] 太原科技大学
关键词
局部离群数据; 属性相关分析; 微粒群算法; 子空间; 稀疏度系数; 并行计算; 冗余属性;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
海量高维离群数据挖掘是当前数据挖掘等领域的研究热点之一,但传统的离群数据挖掘算法大多数是从全局的角度寻找离群数据,并不适合高维海量数据集。本文针对高维海量数据集中的局部离群数据,采用属性相关分析方法,对离群挖掘算法与应用进行了较深入的研究,其主要研究成果为: 1)给出了一种基于属性相关分析的局部离群数据挖掘算法。该算法首先采用属性相关分析,删除冗余属性及在各种属性维组合中都处于稠密区域的数据对象,有效地实现降维和缩小数据集的目的,提高了挖掘效率;然后根据稀疏度系数,利用微粒群算法搜索稀疏子空间,并确定局部离群数据;最后采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。 2)给出了一种基于属性相关分析的局部离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用天文光谱数据作为数据集,实验结果验证了算法的正确性和有效性。 3)在上述研究的基础上,采用C++和Oracle 9i作为开发工具,设计与实现了天文光谱特征线局部离群挖掘原型系统。利用晚型星SDSS光谱数据作为实验数据集,验证了该系统实现天体光谱数据局部离群挖掘是可行的、有价值的。
引用
收藏
页数:58
共 22 条
[1]
高维数据挖掘中若干关键问题的研究 [D]. 
杨风召 .
复旦大学,
2003
[2]
一种基于约束FP树的天体光谱数据相关性分析方法 [J].
张继福 ;
赵旭俊 .
模式识别与人工智能, 2009, 22 (04) :639-646
[3]
基于微粒群和子空间的离群数据挖掘算法研究 [J].
葛凌云 ;
张继福 ;
蔡江辉 .
系统仿真学报, 2009, 21 (07) :1897-1900+1903
[4]
基于约束概念格的天体光谱局部离群数据挖掘系统.[J].张继福;张素兰;蒋义勇;.光谱学与光谱分析.2009, 02
[5]
基于概念格的天体光谱离群数据识别方法 [J].
张继福 ;
蒋义勇 ;
胡立华 ;
蔡江辉 ;
张素兰 .
自动化学报, 2008, (09) :1060-1066
[6]
基于局部信息熵的加权子空间离群点检测算法 [J].
倪巍伟 ;
陈耿 ;
陆介平 ;
吴英杰 ;
孙志挥 .
计算机研究与发展, 2008, (07) :1189-1194
[7]
面向LAMOST的天体光谱离群数据挖掘系统研究 [J].
张继福 ;
蔡江辉 .
光谱学与光谱分析, 2007, (03) :606-609
[8]
核覆盖算法在光谱分类问题中的研究 [J].
杨金福 ;
许馨 ;
吴福朝 ;
赵永恒 .
光谱学与光谱分析, 2007, (03) :602-605
[9]
基于广义判别分析的光谱分类 [J].
许馨 ;
杨金福 ;
吴福朝 ;
赵永恒 .
光谱学与光谱分析, 2006, (10) :1960-1964
[10]
离群数据挖掘综述 [J].
黄洪宇 ;
林甲祥 ;
陈崇成 ;
樊明辉 .
计算机应用研究, 2006, (08) :8-13