基于最大频繁项目集的数据挖掘关联规则算法研究

被引：0

作者：

宋卫林

机构：

[1] 北京邮电大学

关键词：

数据挖掘; 知识发现; 关联规则; 序列模式; DMFIA算法; ISSDM算法; 最大频繁项目集; 最大频繁项目序列集; 最大频繁客户序列集;

D O I：

暂无

年度学位：

2006

学位类型：

博士

导师：

徐惠民;

摘要：

数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术，它成为未来信息技术应用的重要目标之一。经过十几年的努力，数据挖掘产生了许多新概念和方法。特别是最近几年，一些基本概念和方法趋于清晰，它的研究正向着更深入的方向发展。像其它新技术的发展历程一样，数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看，大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段，迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支，留给研究者的是更深入的课题。面对大型数据库，关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此，需要探索新的挖掘理论和模型；需要对一些传统的算法进行改进；也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势，本文选择了基于最大频繁项目集的关联规则算法作为研究对象，并开展相关工作。本文针对客户数据库海量数据挖掘时间问题，为提高挖掘效率，从多方面满足用户分析数据的需求，论文借鉴了基于FP-tree最大频繁项目集挖掘DMFIA算法的相关思想，通过使用不同的数据分析方法，并灵活调整最小支持度数，提出了一种新的基于客户数据库的最大频繁项目集算法，可以从不同的角度分析数据，有效地减少了算法的执行时间。通过进一步分析发现原DMFIA算法和基于客户数据库的最大频繁项目集算法不能有效地解决客户序列视图数据库的数据挖掘问题，针对这一问题，借鉴以上算法相关思想，结合序列模式提出了一种新的基于序列模式的项目级最大频繁序列集算法，即将大于或等于最小支持度数s的项目按支持度由小到大的顺序开始做循环运算，但在对MFCSd进行循环运算时，若MFCSd中的元素，即以客户序列为单位的每一项，若所包含事务的项目支持度均大于或等于进行循环运算的某一频繁项目支持度数，提取出来形成MFCSk；对MFCSk中以客户序列为单位的每一项，则统计该客户序列在备份MFCS的支持度数flag，如果flag＞=s′（通常s=s′），则直接将该客户序列输出到最大频繁序列集MFSd，否则将MFCSd该客户序列中的事务相互组合形成集合，然后提取集合中所有元素，逐一进行循环运算；算法的时间复杂度将取决于对MFCSd进行多次循环运算，何时MFCSd为空，因此这是决定算法执行时间的关键。基于序列模式的事务级最大频繁序列集算法是在基于序列模式的项目级最大频繁序列集算法的基础上的进一步研究，即将以事务为单位的每一项，即取大于或等于最小支持度数s的事务按支持度由小到大的顺序，以类似于基于序列模式的项目级最大频繁序列集算法逐一循环计算的方式挖掘数据库中的数据。接着，本文阐述了挖掘最大频繁项目序列集ISSDM算法，针对该算法不能有效地解决客户序列视图数据库的数据挖掘问题，结合序列模式提出了改进ISSDM算法，并进行了相应的验证，结果表明，在进行相同数据量的算法执行时间对比实验中，改进算法执行时间明显优于原算法。最后，针对数据仓库领域的数据挖掘问题，将基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法分别同数据仓库的多维模型相结合，提出了针对数据仓库多维模型的基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法。总之，本文通过对基于FP-tree的最大频繁项目集的DMFIA算法和ISSDM算法的研究，针对数据库领域的客户序列视图数据库数据挖掘问题及数据仓库领域的多维模型，提出了一系列创新算法。实践表明，算法有较好的实用性、可操作性和创新性，具有较好的理论价值，所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有较好的应用前景。

引用

页数：100

共 26 条

[1]

数据挖掘技术与关联规则挖掘算法研究 [D].