海量高维离群数据挖掘是当前数据挖掘等领域的研究热点之一,但传统的离群数据挖掘算法大多数是从全局的角度寻找离群数据,并不适合高维海量数据集。本文针对高维海量数据集中的局部离群数据,采用属性相关分析方法,对离群挖掘算法与应用进行了较深入的研究,其主要研究成果为:
1)给出了一种基于属性相关分析的局部离群数据挖掘算法。该算法首先采用属性相关分析,删除冗余属性及在各种属性维组合中都处于稠密区域的数据对象,有效地实现降维和缩小数据集的目的,提高了挖掘效率;然后根据稀疏度系数,利用微粒群算法搜索稀疏子空间,并确定局部离群数据;最后采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。
2)给出了一种基于属性相关分析的局部离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用天文光谱数据作为数据集,实验结果验证了算法的正确性和有效性。
3)在上述研究的基础上,采用C++和Oracle 9i作为开发工具,设计与实现了天文光谱特征线局部离群挖掘原型系统。利用晚型星SDSS光谱数据作为实验数据集,验证了该系统实现天体光谱数据局部离群挖掘是可行的、有价值的。