基于数据立方体和树结构的关联规则算法研究及其应用

被引:0
作者
丁云磊
机构
[1] 江苏大学
关键词
数据挖掘; 关联规则; 数据立方体; 树结构; 电子商务; 推荐系统;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
关联规则挖掘作为数据挖掘的一个重要研究分支,由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,能够有效解决“数据丰富、知识贫乏”的现状,因而具有较大的理论研究与应用价值。 本文针对如何提高关联规则挖掘算法效率这一核心问题进行了相关研究,并将研究成果应用到某电子商务个性化推荐系统中。本文的主要研究内容包括: 1.首先对数据挖掘相关概念及其基本技术和任务作了介绍,接着阐述了关联规则挖掘领域的相关知识,重点介绍了关联规则的经典算法——Apriori算法,描述了Apriori算法的原理和频繁项集的生成过程,分析了算法存在的性能瓶颈,并且对提高Apriori算法效率的几种现有的方法做了介绍。 2.提出基于数据立方体的关联规则挖掘算法(Algorithm Based on DataCube,简称ABDC算法)。关联规则挖掘过程中,频繁的I/O操作,成为影响关联规则挖掘效率的瓶颈之一。虽然现在有一些改进算法对其进行了优化,但是当事务数量急剧增加时,会对算法的执行效率造成较严重的影响。而本文提出的ABDC算法结合了属性分组的思想,利用数据库中事务的包含关系,得到数据库中存在的频繁项集,不仅对事务数量的递增具有不敏感性,而且提高了算法的执行效率。实验结果表明该算法对挖掘大量事务集中存在的关联规则是快速有效的。 3.提出基于树结构的关联规则挖掘算法(Algorithm Based on Tree,简称ABT算法)。关联规则挖掘过程中,大量的侯选项集的产生也是影响挖掘效率提高的性能瓶颈之一。ABT算法运用关联矩阵将频繁项集映射到树结构中存储,并利用树中包含部分频繁项集的子树,逐步拓展成包含所有频繁项集的树结构;不仅提高了候选项集的生成效率,而且极大地减少了侯选项集的产生数量。实验结果表明,该算法相比同类算法是快速有效的。 4.对提出的ABDC算法和ABT算法作了可扩展性分析比较。定量分析了在处理不同特性的挖掘对象时,这两个关联规则算法所表现出的不同优越性。说明了在实际应用时,需要针对不同的挖掘情况采用恰当的挖掘算法,这样能够更加有效地提高挖掘效率。 5.将文中提出的ABDC算法和ABT算法应用到某电子商务个性化推荐系统中,根据业务逻辑的不同充分发挥了算法各自的挖掘特性,提高了推荐系统离线关联规则的挖掘效率。该推荐系统能够在用户的购买过程中,根据当前用户信息,从不同层面给予商品的推荐提示,提高了用户操作过程的友好性;同时,根据推荐系统的挖掘结果,能够对商家的经营决策起到积极的指导作用。
引用
收藏
页数:84
共 24 条
[1]
可信关联规则及其基于极大团的挖掘算法 [J].
肖波 ;
徐前方 ;
蔺志青 ;
郭军 ;
李春光 .
软件学报, 2008, (10) :2597-2610
[2]
基于散列的关联规则AprioriTid改进算法 [J].
俞燕燕 ;
李绍滋 .
计算机工程, 2008, (05) :60-62
[3]
电子商务推荐系统研究综述 [J].
刘平峰 ;
聂规划 ;
陈冬林 .
情报杂志, 2007, (09) :46-50
[4]
基于索引数组与集合枚举树的最大频繁项集挖掘算法 [J].
宋威 ;
杨炳儒 ;
徐章艳 ;
侯伟 .
计算机科学, 2007, (07) :146-149
[5]
电子商务技术发展综述 [J].
汪勇 ;
熊前兴 .
武汉科技大学学报(自然科学版), 2005, (04) :406-409
[6]
基于属性分组的高效挖掘关联规则算法 [J].
杨凯 ;
张小平 ;
马垣 ;
不详 .
计算机工程与应用 , 2005, (31)
[7]
模糊关联规则的并行挖掘算法 [J].
陆建江 ;
徐宝文 ;
邹晓峰 ;
康达周 .
东南大学学报(自然科学版), 2005, (02) :165-170
[8]
挖掘关联规则的高效ABM算法 [J].
牛小飞 ;
石冰 ;
卢军 ;
吴科 .
计算机工程, 2004, (11) :118-120
[9]
元规则指导下的逐步求精多层空间关联规则挖掘算法 [J].
袁红春 ;
熊范纶 .
计算机工程, 2004, (08) :34-36+39
[10]
数据立方体上多维多层关联规则挖掘算法 [J].
贺琼 ;
刘潭仁 ;
郭平 .
计算机应用, 2004, (03) :85-88