大数据相关分析综述

被引:230
作者
梁吉业 [1 ]
冯晨娇 [1 ,2 ]
宋鹏 [1 ,3 ]
机构
[1] 山西大学计算智能与中文信息处理教育部重点实验室
[2] 山西财经大学应用数学学院
[3] 山西大学经济与管理学院
关键词
大数据; 相关分析; 相关系数; 信息熵;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大数据时代,相关分析因其具有可以快捷、高效地发现事物间内在关联的优势而受到广泛的关注,并有效地应用于推荐系统、商业分析、公共管理、医疗诊断等领域.面向非线性、高维性等大数据的复杂特征,结合现有相关分析方法的语义分析,文中从统计相关分析、互信息、矩阵计算、距离4个方面对大数据相关分析的现有研究成果进行了梳理.在对统计学中的经典相关分析理论进行归纳、总结的基础上,文中从大规模数据的通用性和均等性视角阐述了基于互信息的两个变量间非线性相关分析理论,从高维数据可计算的角度分析了基于矩阵计算的相关系数,从非线性、高维性数据的复杂结构方面解析了基于距离的相关系数.进一步地,该文在对已有相关分析方法进行分析与比较的基础上,围绕高维数据、多变量数据、大规模数据、增长性数据及其可计算方面探讨了大数据相关分析的研究挑战.
引用
收藏
页码:1 / 18
页数:18
相关论文
共 34 条