海量数据上挖掘关联规则的并行算法

被引:5
作者
张兆功
李建中
张艳秋
机构
[1] 黑龙江大学计算机技术学院
[2] 哈尔滨工业大学计算机科学与技术学院 黑龙江哈尔滨哈尔滨工业大学计算机科学与技术学院黑龙江哈尔滨
[3] 黑龙江哈尔滨哈尔滨工业大学计算机科学与技术学院黑龙江哈尔滨
[4] 黑龙江哈尔滨
基金
黑龙江省自然科学基金;
关键词
关联规则; 海量数据; 并行计算; 控掘算法;
D O I
暂无
中图分类号
TP311.13 []; TP391 [信息处理(信息加工)];
学科分类号
1201 ; 081203 ; 0835 ;
摘要
针对目前关联规则挖掘算法中数据库规模很大时算法执行时间太长的问题.指出了并行计算是解决该问题的一个有效方法.利用新提出的可以忽略仅仅在少于1/4的结点机上的局部频繁项集,给出了一种新的并行随机抽样方法,并利用机群并行计算机的自治能力和I/O高度并行的特点,提高了抽样算法对海量数据的处理能力和效率.理论分析和实验数据显示,该算法的加速比接近于处理机的个数p,通信复杂性为处理机的个数p的对数,具有良好的扩展性和海量处理能力,且精确度较高.
引用
收藏
页码:561 / 565
页数:5
相关论文
共 1 条
[1]  
An efficient hash based algorithm formining association rules .2 PARK J S,CHEN M S,YU P S. Proceedings of ACM SIGMOD International Conference on Management of Data (SIGMOD‘ 95) . 1995