数据流频繁闭项集挖掘算法研究

被引:0
作者
赖胜
机构
[1] 兰州理工大学
关键词
数据流; 数据流挖掘; 频繁项集; 频繁闭项集; 滑动窗口; 基本窗口;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
数据流的出现给传统的数据挖掘技术带来了巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘。随着移动终端设备的广泛应用,数据流应用领域不断增多,因此,必须对数据流环境下的数据处理技术进行研究。目前,数据流挖掘技术引起了国内外学者的广泛关注,成为当前的一个研究热点。 频繁项集挖掘是数据流挖掘的主要研究内容,被广泛应用于关联规则发现、冰山查询、分类和聚类等问题。针对传统的方法大多关注于在数据流中挖掘全部频繁项集,存在数据和模式冗余问题,近年来人们开始关注在数据流中挖掘频繁闭项集。 本文在对数据流挖掘领域若干问题进行探讨的同时,主要研究了数据流中频繁闭项集的挖掘问题,提出了新的算法并结合实验结果做了必要的分析。概括地说,本文主要涉及到如下几方面内容: 1.与传统的关系型数据库相比,分析了数据流的特点。按照算法处理数据流时所采用的不同时序范围对数据流处理模型进行了介绍,并对目前常用的数据流处理技术进行归纳总结。 2.对数据流挖掘算法的特点及其模型进行了分析和总结,对当前数据流挖掘算法作了介绍。对数据流频繁项集挖掘的经典算法作了详细的分析,了解数据流挖掘过程中的存储结构和存储方法,以及概要数据结构的生成、维护和实时查询结果等方面的内容。 3.频繁闭项集不仅包含了频繁项集的全部信息,而且在数量上远小于频繁项集,在实际应用中更容易被人们理解。本文研究了数据流环境下的频繁闭项集挖掘问题,提出了一种新的基于滑动窗口处理模型的频繁闭项集挖掘算法,来挖掘最近一段时间内用户感兴趣的信息。并将它们存储到一种新的数据结构中,随着滑动窗口的不断滑动以基本窗口为更新单位实时更新和维护该结构,利用该结构可以快速地挖掘出滑动窗口中所有频繁闭项集。
引用
收藏
页数:54
共 13 条
[1]
挖掘数据流任意滑动时间窗口内频繁模式 [J].
李国徽 ;
陈辉 .
软件学报, 2008, (10) :2585-2596
[2]
基于滑动窗口的数据流闭合频繁模式的挖掘 [J].
刘学军 ;
徐宏炳 ;
董逸生 ;
钱江波 ;
王永利 .
计算机研究与发展, 2006, (10) :1738-1743
[3]
数据流频繁模式挖掘研究进展 [J].
潘云鹤 ;
王金龙 ;
徐从富 .
自动化学报, 2006, (04) :594-602
[4]
数据流中一种快速启发式频繁模式挖掘方法 [J].
张昕 ;
李晓光 ;
王大玲 ;
于戈 .
软件学报, 2005, (12) :2099-2105
[5]
挖掘数据流中的频繁模式 [J].
刘学军 ;
徐宏炳 ;
董逸生 ;
王永利 ;
钱江波 .
计算机研究与发展, 2005, (12) :2192-2198
[6]
数据流中基于计数的频繁模式挖掘 [J].
周傲英 ;
崇志宏 .
计算机应用, 2004, (10) :4-6
[7]
Aurora: a new model and architecture for data stream management [J].
Abadi, DJ ;
Carney, D ;
Cetintemel, U ;
Cherniack, M ;
Convey, C ;
Lee, S ;
Stonebraker, M ;
Tatbul, N ;
Zdonik, S .
VLDB JOURNAL, 2003, 12 (02) :120-139
[8]
Finding frequent items in data streams.[J].Moses Charikar;Kevin Chen;Martin Farach-Colton.Theoretical Computer Science.2003, 1
[9]
An improved data stream summary: the count-min sketch and its applications.[J].Graham Cormode;S. Muthukrishnan.Journal of Algorithms.2003, 1
[10]
RANDOM SAMPLING WITH A RESERVOIR [J].
VITTER, JS .
ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE, 1985, 11 (01) :37-57