一种自顶向下挖掘长频繁项的有效方法

被引:24
作者
王晓峰
王天然
赵越
机构
[1] 中国科学院沈阳自动化研究所,中国科学院沈阳自动化研究所,沈阳化工学院计算机科学与技术学院沈阳,沈阳化工学院计算机科学与技术学院沈阳,沈阳,沈阳
关键词
自顶向下; 数据挖掘; 关联规则; 项目约简; 频繁项;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
Apriori算法已经成为关联规则挖掘中的经典算法 ,被广泛地用于商业决策、银行贷款、金融保险等几乎所有的关联规则挖掘领域之中 该方法是一种自底向上的有效挖掘方法 ,对于长频繁项 (如 10 0个项目 )该方法会遇到非常耗时的巨大计算问题 采用了一种新的自上而下挖掘方法 ,提出了事务项目关联信息表、关键项目、项目约简、投影数据库等新概念 ,利用投影、约简等方法在候选项集生成过程中及时修剪重复分支 ,使算法的实际效率大为提高 ,较好地解决了长频繁项的挖掘问题 通过计算机实验和算法分析证明了这种挖掘方法的有效性和完备性 新算法的计算复杂度与项目集平均约简项长度有关 ,估计为 0 5×M3 N×O(2 S×N′2 ) 其中 ,S为系统在用户给定最小支持度条件下的平均约简项长度 ,N′是数据库所对应关系的元组数 ,N为记录数 ,M为项目集平均长度 对于长频繁项来说S很小 ,计算复杂度接近多项式时间
引用
收藏
页码:148 / 155
页数:8
相关论文
共 3 条
[1]   相关测度与增量式支持度和信任度的计算 [J].
王晓峰 ;
王天然 .
软件学报, 2002, (11) :2208-2214
[2]   基于双空间搜索的频繁项挖掘方法 [J].
王晓峰 ;
王天然 .
计算机科学, 2002, (04) :55-60
[3]   相关集合论(英文) [J].
王晓峰,尹丹娜 ;
郑诗诠 .
沈阳化工学院学报, 1999, (01)