学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于Spark的并行Eclat算法
被引:27
作者
:
论文数:
引用数:
h-index:
机构:
冯兴杰
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
潘轩
[
1
]
机构
:
[1]
中国民航大学计算机科学与技术学院
[2]
中国民航大学信息网络中心
来源
:
计算机应用研究
|
2019年
/ 36卷
/ 01期
关键词
:
关联规则挖掘;
大数据;
Spark;
投影树;
并行化;
D O I
:
10.19734/j.issn.1001-3695.2017.07.0695
中图分类号
:
TP311.13 [];
学科分类号
:
摘要
:
通过对Spark大数据平台以及Eclat算法的深入分析,提出了基于Spark的Eclat算法(即SPEclat)。针对串行算法在处理大规模数据时出现的不足,该方法在多方面进行改进:为减少候选项集支持度计数带来的损耗,改变了数据的存储方式;将数据按前缀进行分组,并划分到不同的计算节点,压缩数据的搜索空间,实现并行化计算。最终将算法结合Spark云计算平台的优势加以实现。实验表明该算法可在处理海量数据集时高效运行,并且在面对数据量大规模增长的情况下具备良好的可扩展性。
引用
收藏
页码:18 / 21
页数:4
相关论文
共 10 条
[1]
基于Spark的并行频繁模式挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
曹博
;
论文数:
引用数:
h-index:
机构:
倪建成
;
论文数:
引用数:
h-index:
机构:
李淋淋
;
论文数:
引用数:
h-index:
机构:
于苹苹
;
论文数:
引用数:
h-index:
机构:
姚彬修
.
计算机工程与应用,
2016,
52
(20)
:86
-91
[2]
分布式并行化数据流频繁模式挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
马可
;
论文数:
引用数:
h-index:
机构:
李玲娟
;
论文数:
引用数:
h-index:
机构:
孙杜靖
.
计算机技术与发展,
2016,
26
(07)
:75
-79
[3]
分布式频繁项集挖掘算法
[J].
陈明洁
论文数:
0
引用数:
0
h-index:
0
机构:
上海市公安局科技处
陈明洁
.
计算机应用与软件,
2015,
32
(10)
:63
-66
[4]
并行挖掘频繁项目集新算法——MREclat
[J].
论文数:
引用数:
h-index:
机构:
章志刚
;
论文数:
引用数:
h-index:
机构:
吉根林
;
论文数:
引用数:
h-index:
机构:
唐梦梦
.
计算机应用,
2014,
34
(08)
:2175
-2178
[5]
基于MapReduce的SON算法实现
[J].
论文数:
引用数:
h-index:
机构:
郭进伟
;
论文数:
引用数:
h-index:
机构:
皮建勇
.
计算机应用,
2014,
34(S1)
(S1)
:100
-102+106
[6]
基于MapReduce的海量数据挖掘技术研究
[J].
论文数:
引用数:
h-index:
机构:
李伟卫
;
论文数:
引用数:
h-index:
机构:
赵航
;
论文数:
引用数:
h-index:
机构:
张阳
;
论文数:
引用数:
h-index:
机构:
王勇
.
计算机工程与应用,
2013,
49
(20)
:112
-117
[7]
一种基于后缀项表的并行闭频繁项集挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
唐颖峰
;
论文数:
引用数:
h-index:
机构:
陈世平
.
计算机应用研究,
2014,
31
(02)
:373
-377
[8]
Parallel algorithms for discovery of association rules
[J].
Zaki, MJ
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Zaki, MJ
;
Parthasarathy, S
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Parthasarathy, S
;
论文数:
引用数:
h-index:
机构:
Ogihara, M
;
Li, W
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Li, W
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1997,
1
(04)
:343
-373
[9]
数据挖掘:概念与技术.[M].(美) 韩家炜等; 著.机械工业出版社.2006,
[10]
基于SPARK的海量数据频繁模式挖掘算法研究
[D].
赵焱德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学
哈尔滨工业大学
赵焱德
.
哈尔滨工业大学,
2016
←
1
→
共 10 条
[1]
基于Spark的并行频繁模式挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
曹博
;
论文数:
引用数:
h-index:
机构:
倪建成
;
论文数:
引用数:
h-index:
机构:
李淋淋
;
论文数:
引用数:
h-index:
机构:
于苹苹
;
论文数:
引用数:
h-index:
机构:
姚彬修
.
计算机工程与应用,
2016,
52
(20)
:86
-91
[2]
分布式并行化数据流频繁模式挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
马可
;
论文数:
引用数:
h-index:
机构:
李玲娟
;
论文数:
引用数:
h-index:
机构:
孙杜靖
.
计算机技术与发展,
2016,
26
(07)
:75
-79
[3]
分布式频繁项集挖掘算法
[J].
陈明洁
论文数:
0
引用数:
0
h-index:
0
机构:
上海市公安局科技处
陈明洁
.
计算机应用与软件,
2015,
32
(10)
:63
-66
[4]
并行挖掘频繁项目集新算法——MREclat
[J].
论文数:
引用数:
h-index:
机构:
章志刚
;
论文数:
引用数:
h-index:
机构:
吉根林
;
论文数:
引用数:
h-index:
机构:
唐梦梦
.
计算机应用,
2014,
34
(08)
:2175
-2178
[5]
基于MapReduce的SON算法实现
[J].
论文数:
引用数:
h-index:
机构:
郭进伟
;
论文数:
引用数:
h-index:
机构:
皮建勇
.
计算机应用,
2014,
34(S1)
(S1)
:100
-102+106
[6]
基于MapReduce的海量数据挖掘技术研究
[J].
论文数:
引用数:
h-index:
机构:
李伟卫
;
论文数:
引用数:
h-index:
机构:
赵航
;
论文数:
引用数:
h-index:
机构:
张阳
;
论文数:
引用数:
h-index:
机构:
王勇
.
计算机工程与应用,
2013,
49
(20)
:112
-117
[7]
一种基于后缀项表的并行闭频繁项集挖掘算法
[J].
论文数:
引用数:
h-index:
机构:
唐颖峰
;
论文数:
引用数:
h-index:
机构:
陈世平
.
计算机应用研究,
2014,
31
(02)
:373
-377
[8]
Parallel algorithms for discovery of association rules
[J].
Zaki, MJ
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Zaki, MJ
;
Parthasarathy, S
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Parthasarathy, S
;
论文数:
引用数:
h-index:
机构:
Ogihara, M
;
Li, W
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Rochester, Dept Comp Sci, Rochester, NY 14627 USA
Li, W
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1997,
1
(04)
:343
-373
[9]
数据挖掘:概念与技术.[M].(美) 韩家炜等; 著.机械工业出版社.2006,
[10]
基于SPARK的海量数据频繁模式挖掘算法研究
[D].
赵焱德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学
哈尔滨工业大学
赵焱德
.
哈尔滨工业大学,
2016
←
1
→