基于FPMAX的最大频繁项目集挖掘改进算法

被引:17
作者
牛新征
佘堃
机构
[1] 电子科技大学计算机科学与工程学院
关键词
频繁项目集; 最大频繁项目集; FP-tree; FPMAX; FP-growth;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
挖掘事务数据库中的最大频繁项目集是数据挖掘领域一个重要的研究方向。基于FP-tree的FPMAX算法是目前较为高效与稳定的最大频繁项目集挖掘算法之一。然而对于稠密数据库中的挖掘,FPMAX会产生大量的冗余递归过程,导致额外的条件FP-tree构造开销。而且在支持度较低时,FPMAX则会因用于超集检测的全局MFItree较为庞大而导致超集检测的性能下降。为此提出FPMAX的改进算法FPMAX-reduce,其通过采用基于事务共同后缀的前瞻剪枝策略来减少挖掘过程中的冗余递归过程。当递归过程中产生的新条件FP-tree规模较小时,FPMAX-reduce通过构造条件MFI-tree来减小后续超集检测遍历的开销。性能试验表明,FPMAX-reduce算法通过有效的前瞻剪枝,在稠密事务数据库以及低支持度的情况下至多可将递归过程减少至原算法的一半以下,进而有效地提高了FPMAX算法的效率。
引用
收藏
页码:223 / 228
页数:6
相关论文
共 3 条
[1]
Mining frequent patterns without candidate generation [J].
Han, JW ;
Pei, J ;
Yin, YW .
SIGMOD RECORD, 2000, 29 (02) :1-12
[2]
面向大规模数据的快速并行聚类划分算法研究 [J].
牛新征 ;
佘堃 .
计算机科学, 2012, 39 (01) :134-137+151
[3]
最大频繁项目集的快速更新 [J].
吉根林 ;
杨明 ;
宋余庆 ;
孙志挥 .
计算机学报, 2005, (01) :128-135