随着信息技术的飞速发展和日益普及,各行各业所积累的数据也日益增多,尤其是近年来,“信息爆炸”、“大数据”等概念日渐兴起,如何从大规模数据集中挖掘有用信息已成为热门的研究方向,数据挖掘就是一门在该背景下诞生的新兴技术,旨在从大量数据中发现潜在的知识。
作为数据挖掘领域内的重要研究方向之一,聚类分析目前已广泛应用于数据分析、图像处理、模式识别等领域。但随着数据规模的日益增涨,传统的聚类算法在执行效率、聚类效果等方面均存在一定局限性,因此聚类算法在大规模数据集中的应用研究显得尤为重要。针对这一问题,本文从抽样的角度展开了深入研究,主要工作如下:
首先,针对采用简单随机抽样对大规模数据集进行抽样时容易丢失类的问题,结合已有的基于固定网格划分的密度偏差抽样算法,提出了一种新的可变网格划分算法,并在其基础上对传统密度偏差抽样算法加以改进,设计并实现了一种基于可变网格划分的密度偏差抽样算法。实验结果表明新的可变网格划分算法能针对特定数据集构建符合其分布特征的网格空间,并能实现网格划分相关参数的自动确定,而相对于简单随机抽样算法、基于固定网格划分的密度偏差抽样算法,基于可变网格划分的密度偏差抽样算法能有效提高抽样效率,保证样本质量。
其次,针对所提出的基于可变网格划分的密度偏差抽样算法的实用性展开深入研究,将其集成到WEKA数据挖掘平台中,实现了对某社交网站大规模地理位置数据的聚类分析。实验数据显示,基于可变网格划分的密度偏差抽样算法在处理实际问题中的大规模数据集时同样具有一定的优势,相对于WEKA平台中的其他抽样算法以及微软平台下的Scalable-EM算法,基于可变网格划分的密度偏差抽样算法能够有效提高样本质量,缩短聚类时间,实现了聚类算法在大规模数据集上高效、准确的应用。