基于倾斜时间窗口的频繁项集挖掘算法研究

被引:0
作者
徐艳红
机构
[1] 哈尔滨工程大学
关键词
数据流; 频繁项集; 二进制向量; LR-Trie树; 内存开销;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。 FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。 针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。
引用
收藏
页数:68
共 21 条
[1]
数据流挖掘若干问题的研究 [D]. 
尹志武 .
上海交通大学,
2007
[2]
数据流挖掘算法研究 [D]. 
何相志 .
电子科技大学,
2008
[3]
数据流中频繁模式挖掘方法的研究及应用 [D]. 
庄波 .
山东师范大学,
2008
[4]
商业数据流频繁模式挖掘算法研究与应用 [D]. 
谷蓉 .
浙江工商大学,
2008
[5]
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[6]
Frequent pattern mining: current status and future directions [J].
Han, Jiawei ;
Cheng, Hong ;
Xin, Dong ;
Yan, Xifeng .
DATA MINING AND KNOWLEDGE DISCOVERY, 2007, 15 (01) :55-86
[7]
Research issues in data stream association rule mining [J].
Jiang, N ;
Gruenwald, L .
SIGMOD RECORD, 2006, 35 (01) :14-19
[8]
Issues in data stream management [J].
Golab, L ;
Özsu, MT .
SIGMOD RECORD, 2003, 32 (02) :5-14
[9]
Squeezer: An efficient algorithm for clustering categorical data [J].
He, ZY ;
Xu, XF ;
Deng, SC .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (05) :611-624
[10]
Turbo-charging vertical mining of large databases [J].
Shenoy, P ;
Haritsa, JR ;
Sudarshan, S ;
Bhalotia, G ;
Bawa, M ;
Shah, D .
SIGMOD RECORD, 2000, 29 (02) :22-33