一种基于网格的密度聚类算法研究及应用

被引:0
作者
白雪
机构
[1] 哈尔滨工程大学
关键词
密度聚类; 网格; 可靠性; 失效数据;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
随着信息技术和数据库技术的迅猛发展,需要分析和管理的数据迅速增多,面对大规模的海量数据,迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,数据挖掘技术应运而生。聚类算法是数据挖掘领域的主要方法之一,研究如何提高聚类算法的性能具有重要的意义。 本文通过对密度聚类算法DBSCAN的研究分析,发现该算法在执行的过程中需要为每个数据点计算临域内若干个数据点的相似度信息。当数据量较大时,算法所要求的时间复杂度较高,这个缺陷在一定程度上限制了DBSCAN算法的应用。 针对上述问题,本文给出了基于网格的快速DBSCAN算法。该算法在密度聚类中引入网格的概念,给出网格单元的Eps-外围,创建数据分区;接着,对每个分区应用DBSCAN算法进行聚类;然后,根据给出的合并定理对所有局部聚类结果进行合并。最后,将改进后的算法应用于软件失效数据的预处理中,通过聚类降低失效数据中的异常数据点对软件可靠性参数估计过程的不良影响,提高软件可靠性预测的精度。利用实验对改进后的算法与DBSCAN算法进行对比分析,结果表明,改进后的算法在聚类速度和聚类质量方面均优于DBSCAN。
引用
收藏
页数:70
共 22 条
[1]
基于失效数据的软件可靠性评估及分析工具的实现 [D]. 
姚珍 .
电子科技大学,
2007
[2]
基于测试的软件可靠性评估研究 [D]. 
尚冬娟 .
西北大学,
2006
[3]
基于网格方法的聚类算法研究 [D]. 
孙玉芬 .
华中科技大学,
2006
[4]
数据挖掘中聚类若干问题研究 [D]. 
赵恒 .
西安电子科技大学,
2005
[5]
Time-focused clustering of trajectories of moving objects [J].
Nanni, Mirco ;
Pedreschi, Dino .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2006, 27 (03) :267-289
[6]
Automatic subspace clustering of high dimensional data [J].
Agrawal, R ;
Gehrke, J ;
Gunopulos, D ;
Raghavan, P .
DATA MINING AND KNOWLEDGE DISCOVERY, 2005, 11 (01) :5-33
[7]
Genetic algorithm-based clustering technique [J].
Maulik, U ;
Bandyopadhyay, S .
PATTERN RECOGNITION, 2000, 33 (09) :1455-1465
[8]
Approaches for scaling DBSCAN algorithm to large spatial databases [J].
Zhou, AY ;
Zhou, SG ;
Cao, J ;
Fan, Y ;
Hu, YF .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2000, 15 (06) :509-526
[9]
WaveCluster:: a wavelet-based clustering approach for spatial data in very large databases [J].
Sheikholeslami, G ;
Chatterjee, S ;
Zhang, AD .
VLDB JOURNAL, 2000, 8 (3-4) :289-304
[10]
Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications [J].
Sander, J ;
Ester, M ;
Kriegel, HP ;
Xu, XW .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :169-194