随着知识经济时代的来临,信息与知识已经成为国家和企业发展的重要战略资源,是提高一个组织乃至一个国家战略竞争力的核心,也是实施科学管理与决策的基础。如何获取信息与发现知识,尤其是如何快速高效地在动态变化和爆炸性增长的海量数据流中获取信息和发现知识就成了关键性问题。
与传统数据不同,数据流具有大量、快速连续到达、要求快速响应、一次扫描等特点。而商业数据流除了具备数据流的基本特点外,还具备连续性、冲突性、时间性、海量性和分布性等特性。因此传统的数据挖掘技术不能直接应用到商业数据流上。利用有限系统资源对商业数据流进行快速处理以获取有用信息,为数据挖掘在商业领域的应用研究带来了新的机遇和挑战。
频繁模式挖掘是数据挖掘领域的一个基本问题,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,序列周期分析,最大频繁模式,闭合频繁模式,查询,分类等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。
本文对商业数据流频繁模式挖掘相关技术进行了研究。重点研究了以下几个问题:商业数据流的层次维度结构分析及其挖掘系统的研究;利用静态前窥树高效挖掘最大频繁模式和闭合频繁模式;利用增量式挖掘方式和倾斜时间窗口分别挖掘商业数据流中的最大模式和闭合模式;频繁模式算法在商业领域的实际应用问题等。本文研究内容和创新工作主要包括以下几个方面:
首先,对数据流挖掘及其模型等相关理论进行研究,总结出目前该领域的最新研究成果,以期取其之长运用到商业数据流相关任务的挖掘上。
接着,提炼出商业数据流的概念及特点,分析商业数据流的内容层次和类型维度结构,并以此构建出商业数据流管理系统BDSMS。
然后,针对静态商业数据海量等特点,设计并实现最大频繁模式挖掘算法MFP和闭合频繁模式算法CFP。其中采取前馈剪枝、合并等策略修剪频繁模式树以提高频繁模式构成速度。在此基础上,针对时间序列模型和收银机模型,改进静态的频繁模式挖掘算法MFP和CFP,分别引入增量式挖掘和倾斜时间窗口得出商业数据流挖掘的单遍扫描算法SMFP和SCFP。
最后,本文将上述算法应用到商业特定领域,设计实现了零售行业折扣券生成系统,并对其进行实验分析与研究,挖掘数据表明各算法都具有较高的准确性和时间效率,对商业决策支持具有一定的指导意义。