随着信息技术和数据库技术的迅猛发展,需要分析和管理的数据迅速增多,面对大规模的海量数据,迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,数据挖掘技术应运而生。聚类算法是数据挖掘领域的主要方法之一,研究如何提高聚类算法的性能具有重要的意义。
本文通过对密度聚类算法DBSCAN的研究分析,发现该算法在执行的过程中需要为每个数据点计算临域内若干个数据点的相似度信息。当数据量较大时,算法所要求的时间复杂度较高,这个缺陷在一定程度上限制了DBSCAN算法的应用。
针对上述问题,本文给出了基于网格的快速DBSCAN算法。该算法在密度聚类中引入网格的概念,给出网格单元的Eps-外围,创建数据分区;接着,对每个分区应用DBSCAN算法进行聚类;然后,根据给出的合并定理对所有局部聚类结果进行合并。最后,将改进后的算法应用于软件失效数据的预处理中,通过聚类降低失效数据中的异常数据点对软件可靠性参数估计过程的不良影响,提高软件可靠性预测的精度。利用实验对改进后的算法与DBSCAN算法进行对比分析,结果表明,改进后的算法在聚类速度和聚类质量方面均优于DBSCAN。