一种高效的多层和概化关联规则挖掘方法

被引:39
作者
毛宇星
陈彤兵
施伯乐
机构
[1] 复旦大学计算机科学技术学院
基金
国家自然科学基金重大研究计划;
关键词
分类数据; 多层关联规则; 概化关联规则; 层次聚类; 约简划分;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
通过对分类数据的深入研究,提出了一种高效的多层关联规则挖掘方法:首先,根据分类数据所在的领域知识构建基于领域知识的项相关性模型DICM(domain knowledge-based item correlation model),并通过该模型对分类数据的项进行层次聚类;然后,基于项的聚类结果对事务数据库进行约简划分;最后,将约简划分后的事务数据库映射至一种压缩的AFOPT树形结构,并通过遍历AFOPT树替代原事务数据库来挖掘频繁项集.由于缩小了事务数据库规模,并采用了压缩的AFOPT结构,所提出的方法有效地节省了算法的I/O时间,极大地提升了多层关联规则的挖掘效率.基于该方法,给出了一种自顶向下的多层关联规则挖掘算法TD-CBP-MLARM和一种自底向上的多层关联规则挖掘算法BU-CBP-MLARM.此外,还将该挖掘方法成功扩展至概化关联规则挖掘领域,提出了一种高效的概化关联规则挖掘算法CBP-GARM.通过大量人工随机生成数据的实验证明,所提出的多层和概化关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性,还比现有同类最新算法具有更好的挖掘效率和扩展性.
引用
收藏
页码:2965 / 2980
页数:16
相关论文
共 1 条
[1]  
Efficient Mining of Frequent Patterns Using Ascending Frequency Ordered Prefix-Tree[J] . Guimei Liu,Hongjun Lu,Wenwu Lou,Yabo Xu,Jeffrey Xu Yu.Data Mining and Knowledge Discovery . 2004 (2)