大规模数据集高效数据挖掘算法研究

被引:0
作者
申彦
机构
[1] 江苏大学
关键词
大规模数据集; 关联规则; 磁盘FPTP.EE; 大规模数据集挖掘; 半监督学习; 大规模可扩展EM算法; 概率聚类;
D O I
暂无
年度学位
2013
学位类型
博士
导师
摘要
信息技术的飞速发展以及广泛应用使得企业、政府部门以及其他各种形式的组织积累了大量的数据。过去简单的查询、统计技术仅仅能对数据进行基本的处理,不能进行更高层次的分析,从而自动和智能地将待处理的数据转化为有用的知识。数据挖掘正是在这样的背景之下得到广泛重视和深入研究并取得重大进展的重要研究领域。数据挖掘(Data Mining)是一个从数据中提取隐含在其中的、人们事先不知道的、具有潜在价值的知识的过程。数据挖掘被称为未来信息处理的骨干技术之一。目前,数据挖掘不仅被许多研究人员看作是模式识别以及机器学习等领域的重要研究课题之一,而且被许多产业界人士看作是一个能带来巨大回报的重要研究领域。数据是相当庞杂的,但是从中发现的模式、知识却是非常有意义的,并能产生一定的经济效益。 随着信息技术更进一步的发展,数据库应用的规模、范围不断地扩大,加之数据采集技术的更新,企业和政府利用计算机管理事务能力的增强,产生了更加庞大的大规模数据集。大规模数据集的出现使得有些原本有效的数据挖掘算法在处理这样的数据集时出现了很多新的问题,有待进一步研究加以解决。比如原本很多数据挖掘算法在数据集规模较小时尚能取得不错的挖掘结果。但是针对大规模数据集,计算量太大以至于不能在可接受的时间内获得挖掘结果。甚至会出现由于大规模数据集无法整体读入内存或者是算法执行过程中对内存的占用超过系统可用内存,而使得许多原本有效的挖掘算法不能成功执行的情况。为了提高挖掘效率而采用的一些技术手段比如采样、特征概括等等又使挖掘结果的质量产生了一定程度的下降。本文在对现有数据挖掘算法相关研究进行总结的基础之上,着重针对在处理大规模数据集时关联规则挖掘算法的内存瓶颈问题以及聚类算法的挖掘质量和效率较低的问题进行了详细的分析和研究。论文的研究工作主要包含以下几个方面: (1)介绍了数据挖掘领域的聚类以及关联规则挖掘的重要研究成果。追踪了现有大规模数据集挖掘的聚类以及关联规则挖掘研究的最新进展、现存的关键问题以及发展方向。在研究总结的基础之上,对比了现有算法的特点以及各自的优缺点,得出了现在该领域所面临的新挑战。 (2)针对大规模数据集关联规则挖掘时的内存瓶颈问题,提出了一种基于磁盘表存储FPTREE的大规模数据集关联规则挖掘算法(disk table resident fptree growth,简称DTRFPGROWTH).该算法改进FPGROWTH,借助于轻量级数据库在挖掘过程中对中间过程的FPTREE进行了存储,降低了内存的占用,实现对大规模数据集、低用户支持度的关联规则挖掘。 (3)进一步优化存储机制、提高挖掘效率,直接利用B+树对磁盘FPTREE进行部分存储,提出了一种基于B+树磁盘存储部分FPTREE的大规模数据集关联规则挖掘算法(disk resident B+tree fptree mining,简称DRBFPMINE).该算法实现了部分FPTREE的B+树索引,提高了FPTREE结点的存取效率,可在内存不够时进行FPTREE的部分存储,降低挖掘过程中的内存占用。除此之外,该算法还进一步优化了FPTREE的存储机制和存储策略,不再对整个FPTREE进行存储,而是采用后进先出的方式,自下而上地对FPTREE进行部分存储,进一步提高了算法的执行效率。 (4)针对大规模数据集聚类挖掘结果质量不高、不稳定以及收敛较慢的问题,提出了一种基于标记集指导的半监督一遍扫描K均值聚类算法(semi-supervised labels onescan kmeans,简称SSLOKmeans).以往处理大规模数据集的聚类算法,由于受到核心算法的内在局限性以及为了处理大规模数据集而采用的特征概括以及采样等技术的限制,往往会存在聚类结果质量不高、聚类结果质量不稳定以及算法收敛较慢等问题。本研究工作吸收半监督学习的思想,把LABELS标记集和大规模数据集聚类框架进行整合,提出了SSLOKmeans算法。该算法利用驻留主存的标记集辅助指导整个聚类过程,使得大规模数据集的聚类效率以及聚类结果的质量得到了进一步的提高。 (5)在前面的研究基础之上,针对大规模数据集的概率聚类展开研究,提出了一种基于部分约束信息的大规模数据集EM概率聚类算法(Scalable EM probability clustering algorithm for massive data sets based on partial constraints information,简称PCSEM).前期的研究工作主要针对确定性聚类,即某个数据仅能唯一归属于某一个类别。但在实际工作的聚类过程中,很多情况下某一个对象会以一定的概率同时归属于几个类别。反映到对应的数据集中往往表现为数据集分离得不是很明显,存在一定程度的重叠。以往的概率聚类研究主要针对较小规模的数据集,在处理大规模数据集时往往会出现聚类结果质量不稳定、聚类结果质量不高等问题,且算法收敛较慢,算法性能有待进一步的提高。融入半监督学习的思想,提出了PC SEM算法。该算法利用可以通过数据集自动获取的部分约束信息指导聚类过程,使得大规模数据集概率聚类的效率以及聚类结果的质量得到了进一步的提高。 本文对大规模数据集挖掘进行的研究有助于解决关联规则挖掘时的内存瓶颈问题,提高聚类算法的执行效率以及结果的质量,对以后相关的研究工作也有一定的借鉴意义。
引用
收藏
页数:146
共 46 条
[1]
VMware Workstation与ESX Server典型应用指南.[M].王春海; 编著.中国铁道出版社.2011,
[2]
MATLAB程序设计及应用.[M].许丽佳; 等编著.清华大学出版社.2011,
[3]
数据挖掘原理与算法.[M].邵峰晶; 等编著.科学出版社.2009,
[4]
SAS数据分析系统教程.[M].陈颖; 编著.复旦大学出版社.2008,
[5]
数字图像处理.[M].闫敬文; 著.国防工业出版社.2007,
[6]
空间数据挖掘理论与应用.[M].李德仁;王树良;李德毅著;.科学出版社.2006,
[7]
数据挖掘技术.[M].朱玉全; 主编.东南大学出版社.2006,
[8]
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,
[9]
数据挖掘.[M].(美)MehmedKantardzic著;闪四清等译;.清华大学出版社.2003,
[10]
数据挖掘教程.[M].(美)RichardJ.Roiger;(美)MichaelW.Geatz著;翁敬农译;.清华大学出版社.2003,