数据挖掘关联规则加权算法研究与改进

被引:0
作者
黄明浩
机构
[1] 湖南师范大学
关键词
数据挖掘; 关联规则; Apriori算法; 加权关联规则算法;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
数据挖掘能够从大型数据库中提取或“挖掘”出人们有用的知识,甚至利用已有的数据对未来事物的变化趋势进行预测,关联规则是数据挖掘领域中的一个主要的研究内容,用于表明数据项集之间的规则或模式联系。本文正是对基于经典Apriori的加权关联规则挖掘算法进行研究,并将研究成果应用到电子商务推荐系统中。本文首先概述了数据挖掘及关联规则的相关基础知识,重点剖析了Apriori算法,对其进行阐述和性能分析。针对Apriori算法会忽略概率小但重要性高的项目可能生成过多无趣关联规则的缺陷,引入权值思想,避免重要事物被忽略的可能性;研究加权关联规则挖掘算法中通用的定义和模型,引入k-支持期望作为剪枝过程的依据,克服了加权算法不收敛性的缺陷;针对常规关联规则算法的缺陷——重复扫描目标数据库且生成大量不必要的候选项集,引入矩阵思想,减低时间的消耗及空间的占用。基于以上两点提出基于矩阵的加权关联规则模型及算法:利用矩阵运算求和计算项集支持数,不需要扫描数据库,对数据库的总体扫描次数减至一次;将加权支持度的计算模型进行变形处理,引用了最小加权支持数,省去计算各项集加权支持度,再与最小加权支持度进行对比的过程,而是在频繁(k-l)-项集连接时利用矩阵运算求出项集支持数,与对应最小支持数对比直接产生频繁k-项集,不生成候选项集。详细说明改进算法的思想和执行流程,通过多组数据实例对比验证,该算法避免了大量I/O操作,所耗费的时间极大减少,规则收敛性较常规加权算法有了一定的提高,具有较强的实效性。最后将改进的挖掘算法应用于商业的推荐系统,比较分析了与基于传统加权关联规则的推荐系统的在效率上的区别。在离线部分数据挖掘操作模式下,提高了原算法的运算速度,节省了产生了加权关联规则的时间,加强了人机交互界面的友好性。最后通过实际数据验证了算法的实效性,得到的关联规则和推荐结果对用户能起到积极的指导作用。
引用
收藏
页数:62
共 35 条
[1]
基于时间加权的综合电子商务物品关联推荐 [J].
卫望 ;
张晓烨 ;
刘悦 .
计算机工程, 2012, 38 (20) :172-175
[3]
数据挖掘综述 [J].
汪明 .
河北软件职业技术学院学报, 2012, 14 (01) :45-48+67
[4]
基于数据挖掘的电信行业精确化套餐设计方法研究 [J].
潘宇曦 ;
叶宇航 ;
贺仁龙 .
情报杂志 , 2011, (S1) :123-125
[5]
同态加密隐私保护数据挖掘方法综述 [J].
钱萍 ;
吴蒙 .
计算机应用研究, 2011, 28 (05) :1614-1617+1622
[6]
基于分布式混合数据挖掘的电信客户流失分析 [J].
李爱群 ;
乔晗 ;
王汝传 ;
邓松 .
计算机技术与发展, 2010, 20 (10) :43-46
[7]
数据挖掘技术在制造业CRM中的应用 [J].
廖成斌 .
制造业自动化, 2010, 32 (05) :221-224
[8]
数据挖掘在医学上的应用 [J].
王华 ;
江启成 ;
胡学钢 .
安徽医药, 2008, (08) :746-748
[9]
基于布尔矩阵的关联规则算法研究 [J].
方炜炜 ;
杨炳儒 ;
宋威 ;
侯伟 .
计算机应用研究, 2008, (07) :1964-1966
[10]
数据挖掘技术在商业领域的应用与研究 [J].
樊志平 ;
庄育飞 .
商场现代化, 2008, (01) :52