分布式的增量式张量Tucker分解方法

被引:17
作者
杨克宇 [1 ]
高云君 [1 ,2 ]
陈璐 [1 ]
葛丛丛 [1 ]
沈怡峰 [1 ]
机构
[1] 浙江大学计算机科学与技术学院
[2] 阿里巴巴-浙江大学前沿技术联合研究中心
基金
国家重点研发计划;
关键词
张量; Tucker分解; 分布式; 增量式; Spark;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
随着社交网络、电商系统、移动终端设备的快速发展,海量且高维的数据正以前所未有的速度不断地增长和积累。高维数据可以自然地表示为张量。张量的Tucker分解方法是一种常用且经典的高维数据分析机器学习方法,被广泛地应用于推荐系统、图像压缩、计算机视觉等多个领域。然而,传统的张量分解方法大多只能处理静态的数据,并不适用于动态增长的数据。当处理不断增长的数据时,传统方法大多只能低效地重新开始计算,以完成张量分解。针对增量式数据对传统张量分解方法带来的挑战,本文提出了一种分布式的增量式张量Tucker分解方法DITTD,首次解决了海量高维且动态增长数据上高效的分布式张量Tucker分解问题。该方法首先根据增量数据相对原始数据的位置关系对其进行分类处理。为了实现分布式节点的负载均衡,本文指出张量的最优划分是NP-难问题,并使用启发式方法以实现尽可能均匀的张量划分。为了避免张量Tucker分解的中间结果爆炸问题,本文提出了一种新颖的增量式张量Tucker分解计算方法。该方法减少了中间结果的计算和网络传输通信量,以提升分布式的增量式张量Tucker分解效率。最后,本文在真实与合成数据集上进行了大量的实验。实验结果验证了本文方法的运行效率比基准方法提升了至少1个数量级,并具有良好的可扩展性。
引用
收藏
页码:1696 / 1713
页数:18
相关论文
共 26 条
[1]
面向AI的数据管理技术综述 [J].
李国良 ;
周煊赫 .
软件学报, 2021, 32 (01) :21-40
[2]
基于PCA的信息压缩:从一阶到高阶 [J].
夏志明 ;
徐宗本 .
中国科学:信息科学, 2018, 48 (12) :1622-1633
[3]
可扩展机器学习的并行与分布式优化算法综述 [J].
亢良伊 ;
王建飞 ;
刘杰 ;
叶丹 .
软件学报, 2018, 29 (01) :109-130
[4]
基于特征学习的广告点击率预估技术研究 [J].
张志强 ;
周永 ;
谢晓芹 ;
潘海为 .
计算机学报, 2016, 39 (04) :780-794
[5]
张量局部Fisher判别分析的人脸识别[J] 郑建炜;王万良;姚晓敏;石海燕; 自动化学报 2012, 09
[6]
Fast and memory-efficient algorithms for high-order Tucker decomposition[J] Jiyuan Zhang;Jinoh Oh;Kijung Shin;Evangelos E. Papalexakis;Christos Faloutsos;Hwanjo Yu Knowledge and Information Systems 2020,
[7]
Novel Parallel Algorithms for Fast Multi-GPU-Based Generation of Massive Scale-Free Networks[J] Maksudul Alam;Kalyan S. Perumalla;Peter Sanders Data Science and Engineering 2019,
[8]
Fully Scalable Methods for Distributed Tensor Factorization[J] Shin Kijung;Sael Lee;Kang U IEEE Transactions on Knowledge and Data Engineering 2017,
[9]
Tensors for Data Mining and Data Fusion[J] Evangelos E. Papalexakis;Christos Faloutsos;Nicholas D. Sidiropoulos ACM Transactions on Intelligent Systems and Technology (TIST) 2016,
[10]
Mining billion-scale tensors: algorithms and discoveries[J] Inah Jeon;Evangelos E. Papalexakis;Christos Faloutsos;Lee Sael;U. Kang The VLDB Journal 2016,