基于贝叶斯估计与分布的关联分析方法研究

被引:0
作者
黄琴
机构
[1] 华南理工大学
关键词
尺度关联规则; 贝叶斯估计; 动态后验分布; 关联规则更新;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
关联规则挖掘侧重于发现数据中不同项集之间的关联关系。传统的关联规则挖掘算法以多次扫描数据库来挖掘频繁项目集以提取关联规则,当数据达到一定量级时,存在效率不高、运算量大等问题。本文针对该问题,依据贝叶斯估计理论,提出一种基于项集变量分布与参数贝叶斯估计的计算项集支持度和规则可信度的关联分析方法,使挖掘关联规则尽可能减少数据库扫描次数并使新增数据的规则更新更简单。主要研究内容如下:(1)定义项变量为随机变量,假设变量之间相互独立且均服从正态分布,通过分布参数的贝叶斯估计值,确定每一个项变量的分布函数。给出基于分布的关联分析条件下的项集支持度和规则置信度的新定义。(2)提出基于项变量分布与分布参数贝叶斯估计的关联更新算法。结合贝叶斯共轭先验分布理论,将原样本分布看成先验分布,新增数据看成样本分布,得到参数的后验分布和贝叶斯估计值,从而对项目变量的分布函数进行动态更新。通过动态更新的参数后验分布,计算相应项集事件出现的支持度和提取规则的可信度,特别地,关联规则的更新只需依赖更新后的后验分布函数计算的项集支持度与规则可信度即可。通过与经典Apriori算法进行比较,论证了增加的新数据下,分布的关联规则算法的可行性和高效性。(3)经典的关联分析/分类规则,只表示A发生导致B发生的规则可能性,没有A发生量多少导致B发生量多少的规则可能性,基于项变量分布与贝叶斯估计的关联规则,可以弥补这一缺陷,即针对每一个项目随机变量,可以通过选择不同实数c的变化,根据动态后验分布函数计算k_项集取值不小于c的概率,得到任意k_项集的带有发生量大小的支持度,从而挖掘出带有动态尺度c的关联规则,拓展了经典关联分析方法提取规则的应用面。
引用
收藏
页数:67
共 22 条
[1]
基于随机分布理论的特征关联知识推理研究 [D]. 
杨永健 .
华南理工大学,
2013
[2]
增量更新关联规则挖掘方法的研究 [D]. 
王春华 .
哈尔滨工程大学,
2012
[3]
基于频繁模式树的关联规则算法研究 [D]. 
王洪立 .
哈尔滨工程大学,
2008
[4]
关联规则的增量更新算法 [J].
孙继军 .
统计与管理, 2014, (06) :103-104
[5]
基于SPSS Clementine软件的关联规则算法的应用 [J].
季聪华 ;
曹毅 ;
张颖 ;
刘姗 ;
王伟 .
中医药管理杂志, 2014, 22 (01) :31-33
[6]
中心极限定理介绍 [J].
王筑娟 .
上海应用技术学院学报(自然科学版), 2013, 13 (04) :325-328
[7]
一种正态分布下的动态推荐信任模型 [J].
邵堃 ;
罗飞 ;
梅袅雄 ;
刘宗田 .
软件学报, 2012, 23 (12) :3130-3148
[8]
相关非正态变量变换时相关性变化对可靠度的影响 [J].
吴帅兵 ;
张坤 ;
李典庆 .
武汉大学学报(工学版), 2011, 44 (02) :151-155
[9]
正态总体均值的贝叶斯估计及其渐近性 [J].
刘荣玄 ;
陈玲珍 .
统计与决策, 2007, (07) :139-140
[10]
对频集发现算法Apriori的研究 [J].
董海棠 ;
冯中毅 .
甘肃联合大学学报(自然科学版), 2005, (02) :27-30