基于服务的数据挖掘关联规则技术的研究

被引：0

作者：

谭斌

机构：

[1] 湖北工业大学

关键词：

消息交换模式; Hadoop; MapReduce; K-means; 数值关联规则;

D O I：

暂无

年度学位：

2012

学位类型：

硕士

导师：

邵雄凯;

摘要：

在这20多年的发展中，万维网迅速发展使其成为世界上最大的公共数据源。越来越多的企业大力发展自己的信息化建设，显著地提高了企业的工作效率和经济效益。大型的电子商务网站和社交网络也如雨后春笋般的出现，积累了大量的业务数据，有些分布在不同的地点，面对如此巨大的信息，不仅普通Web用户往往迷失在信息的海洋中，企业对如此巨大的历史数据也不知道是否能够产生价值。所以数据的交换和数据挖掘成为近些年研究的热点问题。在数据交换方面，本文介绍了面向服务的架构（SOA），对它的架构层次和web服务基础进行了归纳，在此基础上研究了面向服务的设计模式，对其中的消息交换模式进行了分析，提出了对MEP的可靠性和幂等性的研究，采用karn自适应算法实现了重传机制，采用数据库技术实现了消息的持久化，采用关联ID的设计方式实现了消息的幂等性。在数据挖掘方面，本文采用了数量关联规则对数据经行分析，并且把该算法扩展到了Hadoop分布式平台上，设计了基于MapReduce的数量关联规则算法。在该算法的数据预处理过程中的连续属性值离散化时，采用了K-means算法，并且提出了基于数据值分布统计的方法来确定K值。在频繁项集的挖掘过程中，对k-项子集的挖掘时，采用组合算法可以产生k-项子集，再利用MapReduce计算模型，在分布式平台上对每个子项计数，求得各个候选项的支持度，根据最小支持度和最小置信度，来进行剪枝操作。当产生的频繁项集没有变化时，算法终止，求得每个规则的置信度，与最小置信度相比，剪掉小于最小置信度的规则，得到关联规则。最后，本文设计了两个实验用来验证提出算法的可行性以及改进后的效果。在消息交换模式实验中，通过分析实验仿真的数据，虽然重传、幂等机制的RTO比非重传、幂等机制的RTO略高15到20毫秒，但是重传、幂等机制所具有的可靠性是其它机制无法替代的，特别是在对可靠性要求很高的业务中，比如网上银行、股票交易等，有着非常重要的意义。在基于MapReduce的数量关联规则算法实验中，对其中采用的K-means算法、组合算法和改进后数量关联规则算法一一实现，并且与传统数量关联规则算法对比，在执行时间、内存占用、事务属性个数都有提高。

引用

页数：72

共 25 条

[1]

基于本体和Web Services的数据交换平台的研究与应用 [D].