基于Hadoop的海量期货数据的分布式存储和算法分析

被引:0
作者
李勇君
机构
[1] 天津大学
关键词
Hadoop; 期货; 海量数据; 存储; 数据挖掘; 分布式;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
期货交易作为一种重要的投资和保值工具,近年来得到了快速的发展,随之而产生的数据也在日益增长,而加快对期货数据的信息资源的整合利用的重要性也就日渐突出。我们可以通过数据挖掘和统计等工具从中发现具有重要价值的信息,传统的数据挖掘模式可以做到这一点,但是随着数据量的不断上涨,出现了一些制约传统数据挖掘模型的因素。首先是对海量数据的存储问题,面对上TB,PB级的数据,传统的商业单机存储已经不能满足要求,其次在如此大规模的数据上进行数据挖掘分析,传统的单机算法所消耗的时间也变得让人难以忍受。 在本文中,我们提出一种针对期货行业的海量数据,运用商业计算机集群来实现数据的分布式存储和并行数据挖掘的解决方案。这一方案的实现的基础是由Doug Cutting开发的Hadoop。该框架是由java实现的开源分布式计算框架,其基础为HDFS和Mapreduce,在其上所构建的分布式应用具有很强的规模性,可扩展性和容错性。方案由总体设计和具体实现两部分。首先,我们提出了一种适用于海量数据存储和挖掘的体系结构,该结构用到了软件体系结构中比较著名的层次结构模型,这种设计使得我们的应用具有很强的灵活性和可扩展性。另外,我们针对各层进行了简单的实现,这些实现包括:web前端,Web service控制层,数据挖掘插件,Hbase存储四个部分,其中对于数据挖掘插件的开发我们进行了较为详细的说明。 在实现方案中,首先我们在页面上使用WebService和Ajax技术来进行参数的提交,通过这两者我们节省了网络带宽,同时达到了消除异构性的目的。在后台,我们通过Spring的Ioc容器来启动服务,减小了代码的侵入性,同时也很好地管理了服务之间的相互依赖。在数据挖掘插件的开发方面,我们实现了Parallel FP-Growth算法,使用了maven来进行插件的开发,这使得我们的应用更加的具有可管理性和复用性。数据存储方面我们用到了基于列的分布式数据库Hbase,其对于海量数据的存储有很大的优势。
引用
收藏
页数:65
共 18 条
[1]
基于数据挖掘的银行客户关系管理 [D]. 
褚法政 .
青岛大学,
2004
[2]
电子交易行情预测算法研究 [D]. 
马大为 .
郑州大学,
2004
[3]
基于Web日志的用户访问模式挖掘 [D]. 
赵伟 .
天津大学,
2004
[4]
网站日志的数据挖掘 [D]. 
段晓峰 .
重庆大学,
2003
[5]
一种基于Hadoop的并行关联规则算法 [J].
余楚礼 ;
肖迎元 ;
尹波 .
天津理工大学学报, 2011, 27 (01) :25-28+32
[6]
P2P分布式存储系统 [J].
田荣华 ;
卢显良 ;
侯孟书 ;
王晓斌 .
计算机科学, 2007, (06) :47-48
[7]
数据挖掘技术在期货市场的应用研究 [J].
王震 ;
潘娜 ;
曹欢欢 .
市场周刊(理论研究), 2007, (01) :140-141
[8]
金融市场高频数据挖掘的新进展——金融孤子(非欧几何)构造投资模式的实盘交易 [J].
马金龙 ;
马非特 .
华南金融电脑, 2006, (06) :8-12+22
[9]
并行数据挖掘算法综述 [J].
刘华元 ;
袁琴琴 ;
王保保 .
电子科技, 2006, (01) :65-68+73
[10]
Web用户访问模式挖掘研究 [J].
陈新中 ;
李岩 ;
杨炳儒 .
计算机科学, 2003, (03) :27-29+43