商业数据流频繁模式挖掘算法研究与应用

被引:0
作者
谷蓉
机构
[1] 浙江工商大学
关键词
数据挖掘; 数据流; 频繁模式; 最大频繁模式; 闭合频繁模式; 增量式挖掘; 倾斜时间窗口;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着知识经济时代的来临,信息与知识已经成为国家和企业发展的重要战略资源,是提高一个组织乃至一个国家战略竞争力的核心,也是实施科学管理与决策的基础。如何获取信息与发现知识,尤其是如何快速高效地在动态变化和爆炸性增长的海量数据流中获取信息和发现知识就成了关键性问题。 与传统数据不同,数据流具有大量、快速连续到达、要求快速响应、一次扫描等特点。而商业数据流除了具备数据流的基本特点外,还具备连续性、冲突性、时间性、海量性和分布性等特性。因此传统的数据挖掘技术不能直接应用到商业数据流上。利用有限系统资源对商业数据流进行快速处理以获取有用信息,为数据挖掘在商业领域的应用研究带来了新的机遇和挑战。 频繁模式挖掘是数据挖掘领域的一个基本问题,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,序列周期分析,最大频繁模式,闭合频繁模式,查询,分类等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。 本文对商业数据流频繁模式挖掘相关技术进行了研究。重点研究了以下几个问题:商业数据流的层次维度结构分析及其挖掘系统的研究;利用静态前窥树高效挖掘最大频繁模式和闭合频繁模式;利用增量式挖掘方式和倾斜时间窗口分别挖掘商业数据流中的最大模式和闭合模式;频繁模式算法在商业领域的实际应用问题等。本文研究内容和创新工作主要包括以下几个方面: 首先,对数据流挖掘及其模型等相关理论进行研究,总结出目前该领域的最新研究成果,以期取其之长运用到商业数据流相关任务的挖掘上。 接着,提炼出商业数据流的概念及特点,分析商业数据流的内容层次和类型维度结构,并以此构建出商业数据流管理系统BDSMS。 然后,针对静态商业数据海量等特点,设计并实现最大频繁模式挖掘算法MFP和闭合频繁模式算法CFP。其中采取前馈剪枝、合并等策略修剪频繁模式树以提高频繁模式构成速度。在此基础上,针对时间序列模型和收银机模型,改进静态的频繁模式挖掘算法MFP和CFP,分别引入增量式挖掘和倾斜时间窗口得出商业数据流挖掘的单遍扫描算法SMFP和SCFP。 最后,本文将上述算法应用到商业特定领域,设计实现了零售行业折扣券生成系统,并对其进行实验分析与研究,挖掘数据表明各算法都具有较高的准确性和时间效率,对商业决策支持具有一定的指导意义。
引用
收藏
页数:82
共 11 条
[1]
基于数据挖掘技术的电信业客户流失分析 [J].
水静 ;
米红娟 .
北京电子科技学院学报, 2007, (02) :91-94
[2]
基于传感器网络的关联规则挖掘算法研究 [J].
骆盈盈 ;
陈川 ;
毛云芳 .
计算机工程与设计, 2007, (08) :1762-1764+1767
[3]
基于流数据技术的信息监测系统的研究与设计 [J].
刘佳 ;
张芳 ;
刘国华 ;
刘琳 .
计算机工程, 2007, (05) :71-72+75
[4]
基于股票市场交易数据流的场景记忆模型 [J].
于宁莉 ;
易东云 ;
刘海波 ;
周润 .
系统工程, 2006, (10) :67-71
[5]
ATM现金流量动态分析 [J].
王正友 ;
刘斯明 .
计算机辅助工程, 2006, (02) :71-73
[6]
无线传感器网络中数据汇聚技术的研究 [J].
张建明 ;
宋迎清 ;
周四望 ;
欧阳竟成 .
计算机应用, 2006, (06) :1273-1278+1283
[7]
股票数据流的相关性计算方法 [J].
彭宏 ;
刘洋 ;
邓维维 ;
郑启伦 .
华南理工大学学报(自然科学版), 2006, (01) :86-89
[8]
数据流中一种快速启发式频繁模式挖掘方法 [J].
张昕 ;
李晓光 ;
王大玲 ;
于戈 .
软件学报, 2005, (12) :2099-2105
[9]
挖掘闭合模式的高性能算法 [J].
刘君强 ;
孙晓莹 ;
庄越挺 ;
潘云鹤 .
软件学报, 2004, (01) :94-102
[10]
数据流上若干查询处理算法的研究 [D]. 
金澈清 .
复旦大学,
2005