数据挖掘中海量数据处理算法的研究与实现

被引:0
作者
苗苗苗
机构
[1] 西安建筑科技大学
关键词
数据挖掘; 海量数据处理; MC-Apriori算法; 粒计算; Grc-AR算法;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
数据挖掘就是从大量的数据中提取出有用的、有价值的信息或者人们所感兴趣的知识的一种处理过程。但是随着不断迅速发展的信息互联网和数据库技术,已经迫使海量数据的处理成为数据挖掘领域所要解决的一个重要课题。 本文以“电信数据挖掘系统的设计与开发”的项目为研究背景,通过对海量数据处理技术的研究,提出了使用内存映射文件技术对海量数据进行初步处理的方法;通过对海量数据挖掘算法及粒计算理论知识的研究,本文提出了两种数据挖掘算法:一种是基于矩阵压缩的Apriroi算法(MC-Apriori),这种算法是在经典Apriori算法基础上的改进,把事务数据转化为0-1矩阵,并按照Apriori性质及其推论对矩阵进行反复压缩,进而得到各项频繁项集,此算法也在一定程度上减少了数据规模及其计算量;一种是基于粒计算的关联规则挖掘算法(Grc-AR),此算法是在MC-Apriori算法的基础上引入粒计算的思想,把海量数据集划分成若干个小数据集,然后对各个小数据集进行操作,并对结果进行整合,得到最终结果。本文以某市移动用户的通话记录为数据样本,分别实现了这两种算法,并对实验结果进行了分析与比较。 实验结果证明这两种算法均没有失去算法的有效性,但在实际处理海量数据时,Grc-AR更适合处理海量数据集,算法的可伸缩性好。最后并从海量的电信数据集中,提取出了一些有价值的信息,给电信运营商提供了决策支持。
引用
收藏
页数:70
共 27 条
[1]
基于粒度原理的聚类分析及规则挖掘技术研究 [D]. 
苏永昌 .
武汉理工大学,
2011
[2]
基于粒计算的数据挖掘研究及应用 [D]. 
吴珺 .
武汉理工大学,
2009
[3]
内存数据库的存储管理 [D]. 
蒋智鹏 .
华中科技大学,
2008
[4]
基于内存映射文件的影像金字塔建模方法的研究 [D]. 
彭百川 .
华中科技大学,
2007
[5]
面向海量数据的关联规则挖掘算法研究 [D]. 
刘小霞 .
北京邮电大学,
2007
[6]
粒计算及其应用研究 [D]. 
刘萍 .
厦门大学,
2006
[7]
Cloud Computing: Does Nirvana Hide behind the Nebula? [J].
Erdogmus, Hakan .
IEEE SOFTWARE, 2009, 26 (02) :4-6
[8]
数据挖掘原理与实践.[M].蒋盛益; 李霞; 郑琪; 编著.电子工业出版社.2011,
[9]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,
[10]
Windows核心编程.[M].(美)[J.里克特]JeffreyRichter著;王建华等译;.机械工业出版社.2000,