基于服务的数据挖掘关联规则技术的研究

被引:0
作者
谭斌
机构
[1] 湖北工业大学
关键词
消息交换模式; Hadoop; MapReduce; K-means; 数值关联规则;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
在这20多年的发展中,万维网迅速发展使其成为世界上最大的公共数据源。越来越多的企业大力发展自己的信息化建设,显著地提高了企业的工作效率和经济效益。大型的电子商务网站和社交网络也如雨后春笋般的出现,积累了大量的业务数据,有些分布在不同的地点,面对如此巨大的信息,不仅普通Web用户往往迷失在信息的海洋中,企业对如此巨大的历史数据也不知道是否能够产生价值。所以数据的交换和数据挖掘成为近些年研究的热点问题。 在数据交换方面,本文介绍了面向服务的架构(SOA),对它的架构层次和web服务基础进行了归纳,在此基础上研究了面向服务的设计模式,对其中的消息交换模式进行了分析,提出了对MEP的可靠性和幂等性的研究,采用karn自适应算法实现了重传机制,采用数据库技术实现了消息的持久化,采用关联ID的设计方式实现了消息的幂等性。 在数据挖掘方面,本文采用了数量关联规则对数据经行分析,并且把该算法扩展到了Hadoop分布式平台上,设计了基于MapReduce的数量关联规则算法。在该算法的数据预处理过程中的连续属性值离散化时,采用了K-means算法,并且提出了基于数据值分布统计的方法来确定K值。在频繁项集的挖掘过程中,对k-项子集的挖掘时,采用组合算法可以产生k-项子集,再利用MapReduce计算模型,在分布式平台上对每个子项计数,求得各个候选项的支持度,根据最小支持度和最小置信度,来进行剪枝操作。当产生的频繁项集没有变化时,算法终止,求得每个规则的置信度,与最小置信度相比,剪掉小于最小置信度的规则,得到关联规则。 最后,本文设计了两个实验用来验证提出算法的可行性以及改进后的效果。在消息交换模式实验中,通过分析实验仿真的数据,虽然重传、幂等机制的RTO比非重传、幂等机制的RTO略高15到20毫秒,但是重传、幂等机制所具有的可靠性是其它机制无法替代的,特别是在对可靠性要求很高的业务中,比如网上银行、股票交易等,有着非常重要的意义。在基于MapReduce的数量关联规则算法实验中,对其中采用的K-means算法、组合算法和改进后数量关联规则算法一一实现,并且与传统数量关联规则算法对比,在执行时间、内存占用、事务属性个数都有提高。
引用
收藏
页数:72
共 25 条
[1]
基于本体和Web Services的数据交换平台的研究与应用 [D]. 
王艳敏 .
南京航空航天大学,
2010
[2]
基于商业智能的电力企业人力资源管理系统的研究与实现 [D]. 
刘静 .
华北电力大学(北京),
2008
[3]
Web服务中消息交换模式(MEP)的研究 [J].
谭斌 ;
邵雄凯 ;
沈泽 .
计算机与数字工程, 2011, 39 (06) :173-176+189
[4]
计算机云计算及其实现技术分析附视频 [J].
刘晓乐 .
电子科技, 2009, (12) :100-102
[5]
Hadoop框架下的容灾系统研究 [J].
李呈栋 ;
戴跃发 ;
王伟 ;
吴波 .
电脑知识与技术, 2009, 5 (28) :8053-8055
[6]
云计算技术现状与发展趋势分析 [J].
胡慧 ;
王辉 .
软件导刊, 2009, 8 (09) :3-4
[7]
基于MapReduce模型的并行科学计算 [J].
郑启龙 ;
房明 ;
汪胜 ;
王向前 ;
吴晓伟 ;
王昊 .
微电子学与计算机, 2009, 26 (08) :13-17
[8]
基于Hadoop的海量共现矩阵生成方法 [J].
杨代庆 ;
张智雄 .
现代图书情报技术, 2009, (04) :23-26
[9]
基于ESB的Web服务集成技术 [J].
郭广军 ;
刘安丰 ;
郭育青 ;
刘康珍 .
计算机应用与软件, 2008, (11) :283-285
[10]
云端的小飞象—Hadoop [J].
孙牧 .
程序员, 2008, (10) :100-102+8