在这20多年的发展中,万维网迅速发展使其成为世界上最大的公共数据源。越来越多的企业大力发展自己的信息化建设,显著地提高了企业的工作效率和经济效益。大型的电子商务网站和社交网络也如雨后春笋般的出现,积累了大量的业务数据,有些分布在不同的地点,面对如此巨大的信息,不仅普通Web用户往往迷失在信息的海洋中,企业对如此巨大的历史数据也不知道是否能够产生价值。所以数据的交换和数据挖掘成为近些年研究的热点问题。
在数据交换方面,本文介绍了面向服务的架构(SOA),对它的架构层次和web服务基础进行了归纳,在此基础上研究了面向服务的设计模式,对其中的消息交换模式进行了分析,提出了对MEP的可靠性和幂等性的研究,采用karn自适应算法实现了重传机制,采用数据库技术实现了消息的持久化,采用关联ID的设计方式实现了消息的幂等性。
在数据挖掘方面,本文采用了数量关联规则对数据经行分析,并且把该算法扩展到了Hadoop分布式平台上,设计了基于MapReduce的数量关联规则算法。在该算法的数据预处理过程中的连续属性值离散化时,采用了K-means算法,并且提出了基于数据值分布统计的方法来确定K值。在频繁项集的挖掘过程中,对k-项子集的挖掘时,采用组合算法可以产生k-项子集,再利用MapReduce计算模型,在分布式平台上对每个子项计数,求得各个候选项的支持度,根据最小支持度和最小置信度,来进行剪枝操作。当产生的频繁项集没有变化时,算法终止,求得每个规则的置信度,与最小置信度相比,剪掉小于最小置信度的规则,得到关联规则。
最后,本文设计了两个实验用来验证提出算法的可行性以及改进后的效果。在消息交换模式实验中,通过分析实验仿真的数据,虽然重传、幂等机制的RTO比非重传、幂等机制的RTO略高15到20毫秒,但是重传、幂等机制所具有的可靠性是其它机制无法替代的,特别是在对可靠性要求很高的业务中,比如网上银行、股票交易等,有着非常重要的意义。在基于MapReduce的数量关联规则算法实验中,对其中采用的K-means算法、组合算法和改进后数量关联规则算法一一实现,并且与传统数量关联规则算法对比,在执行时间、内存占用、事务属性个数都有提高。