分布式全局频繁项目集的快速挖掘方法

被引:11
作者
宋宝莉
覃征
机构
[1] 西安交通大学计算机科学与技术系
关键词
数据挖掘; 分布式数据库; 全局频繁项目集; 被约束子树;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.
引用
收藏
页码:923 / 927
页数:5
相关论文
共 1 条
[1]   在FP-树中挖掘频繁模式而不生成条件FP-树 [J].
范明 ;
李川 ;
不详 .
计算机研究与发展 , 2003, (08) :1216-1222