关联规则分布式挖掘算法研究和实现

被引:0
作者
赵斌
机构
[1] 南京师范大学
关键词
分布式数据挖掘; 关联规则; HashTree; 频繁项目集; 候选项目集;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
数据挖掘技术是近年来数据库和人工智能领域研究的热点课题,它引起了科学界和产业界的广泛关注。作为一门交叉性学科,它涉及到机器学习、模式识别、归纳推理、统计学、数据库、数据可视化、高性能计算等多个领域。关联规则是数据挖掘研究中的一个重要的研究内容,它是完成数据挖掘任务的一个重要手段。 目前,在数据挖掘研究中,对关联规则挖掘的研究开展得比较积极和深入。文中详细介绍了关联规则的基本概念和基本理论,并且介绍了关联规则目前研究方向及其经典算法。频繁项目集的生成是关联规则挖掘中的关键问题,本文探讨了基于Hash Tree的频繁项目集生成方法,提出了利用Hash Tree计算候选项目集支持数的算法,通过实验验证了利用Hash Tree生成频繁项目集的有效性。 关联规则挖掘研究主要在集中式数据库系统中,而基于分布式环境的关联规则挖掘问题目前研究得较少。本文研究重点就是分布式环境中关联规则挖掘问题。文中详细介绍了关联规则分布式挖掘的DMA算法。在此算法的基础上,提出了关联规则分布式更新算法DUA,该算法主要解决分布式系统中数据库发生变化而最小支持度和最小置信度不变的情况下,全局关联规则的更新问题,此更新算法考虑到了数据库中事务增加和删除的情况。最后,本文实现了一个关联规则分布式挖掘系统DAMINER,该系统中包括基于Apriori算法的本地挖掘模块、基于DMA算法的分布式挖掘模块和基于DUA算法的分布式更新模块,实验表明DUA算法的运行时间明显少于DMA算法,采用DUA算法进行关联规则的分布式更新是高效并且可行的。
引用
收藏
页数:54
共 18 条
[1]
人工智能.[M].陆汝钤编著;.科学出版社.1996,
[2]
实用多元统计分析.[M].方开泰编著;.华东师范大学出版社.1989,
[3]
分布式系统中关联规则挖掘研究 [J].
赵斌 ;
吉根林 .
小型微型计算机系统, 2003, (12) :2270-2271
[4]
基于DDMINER分布式数据库系统中频繁项目集的更新 [J].
吉根林 ;
杨明 ;
赵斌 ;
孙志挥 .
计算机学报, 2003, (10) :1387-1392
[5]
PowerBuilder7.0应用程序发布方法的研究 [J].
赵斌 ;
吉根林 ;
不详 .
计算机工程与应用 , 2002, (23) :130-131+134
[6]
相联规则增量算法研究 [J].
李雄飞 ;
臧雪柏 ;
刘光远 ;
苑森淼 .
小型微型计算机系统, 2002, (11) :1387-1389
[7]
挖掘关联规则的并行算法 [J].
李航 ;
刘宗田 ;
陈慧琼 .
小型微型计算机系统, 2002, (10) :1231-1234
[8]
用PowerBuilder实现MIS系统中的动态查询 [J].
赵斌 ;
吉根林 .
南京师范大学学报(工程技术版), 2002, (03) :38-41
[9]
关联规则的几种开采算法及其比较分析 [J].
何炎祥 ;
石莉 ;
张戈 ;
黄浩 ;
李超 .
小型微型计算机系统, 2001, (09) :1065-1068
[10]
数据挖掘技术 [J].
吉根林 ;
孙志挥 .
中国图象图形学报, 2001, (08)