关联规则挖掘侧重于发现数据中不同项集之间的关联关系。传统的关联规则挖掘算法以多次扫描数据库来挖掘频繁项目集以提取关联规则,当数据达到一定量级时,存在效率不高、运算量大等问题。本文针对该问题,依据贝叶斯估计理论,提出一种基于项集变量分布与参数贝叶斯估计的计算项集支持度和规则可信度的关联分析方法,使挖掘关联规则尽可能减少数据库扫描次数并使新增数据的规则更新更简单。主要研究内容如下:(1)定义项变量为随机变量,假设变量之间相互独立且均服从正态分布,通过分布参数的贝叶斯估计值,确定每一个项变量的分布函数。给出基于分布的关联分析条件下的项集支持度和规则置信度的新定义。(2)提出基于项变量分布与分布参数贝叶斯估计的关联更新算法。结合贝叶斯共轭先验分布理论,将原样本分布看成先验分布,新增数据看成样本分布,得到参数的后验分布和贝叶斯估计值,从而对项目变量的分布函数进行动态更新。通过动态更新的参数后验分布,计算相应项集事件出现的支持度和提取规则的可信度,特别地,关联规则的更新只需依赖更新后的后验分布函数计算的项集支持度与规则可信度即可。通过与经典Apriori算法进行比较,论证了增加的新数据下,分布的关联规则算法的可行性和高效性。(3)经典的关联分析/分类规则,只表示A发生导致B发生的规则可能性,没有A发生量多少导致B发生量多少的规则可能性,基于项变量分布与贝叶斯估计的关联规则,可以弥补这一缺陷,即针对每一个项目随机变量,可以通过选择不同实数c的变化,根据动态后验分布函数计算k_项集取值不小于c的概率,得到任意k_项集的带有发生量大小的支持度,从而挖掘出带有动态尺度c的关联规则,拓展了经典关联分析方法提取规则的应用面。