基于随机分布理论的特征关联知识推理研究

被引:0
作者
杨永健
机构
[1] 华南理工大学
关键词
关联分析; 随机分布; 频繁集; 关联规则; MATLAB;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
关联分析是指根据大量数据进行关联挖掘,发现隐藏在数据项之间有价值的相关关系。传统的关联分析主要是根据事务数据库进行多次扫描来挖掘数据间的规则。在数据量达到一定的时候,存在运算量过大,效率不高的情况。本文针对传统关联分析中的效率问题,结合概率论理论及数据先验知识特征,建立一种称之为“基于随机分布的关联规则算法”的运算法则来提高关联分析中的处理效率。主要研究内容如下: (1)本文利用中心极限定理理论,根据事务数据库中的数据先验知识特征,确定相应的随机分布与之对应。依据随机分布,对每一个项目集进行赋予对应的概率值,及建立与传统事务数据库所不同的项目集数据库。 (2)本文提出基于随机分布的关联规则算法,提高关联分析中的运算效率。在新算法中,主要是针对项目集数据库进行挖掘处理。项目集数据库数据容量远低于事务数据库,新算法在挖掘过程可以降低运算量和减少耗时。在多种不同数据容量的情况下对频繁集和关联规则进行挖掘。分析新算法和传统算法,得出数据容量与新算法准确性之间的相关关系。 (3)考虑到实际状况中的数据更新情况,本文建立基于随机分布的关联规则增量算法。对于事务数据和阈值变化两种情况,分别提出不同的增量算法来进行解决。而通过与传统算法进行对比,也证明了新增量算法在更新情况下可以保持高准确度及大大增加效率。 本文利用MATLAB软件实现基于随机分布的关联规则算法和增量算法的改进。依据算法分析及样本数据的对比,证明了基于随机分布的关联规则算法在处理关联分析问题上的可行性及优越性。
引用
收藏
页数:68
共 13 条
[1]
应用Apriori关联规则算法的数据挖掘技术挖掘电子商务潜在客户 [D]. 
乌文波 .
浙江工业大学,
2012
[2]
模糊时序关联规则知识提取与知识推理研究 [D]. 
王柳英 .
华南理工大学,
2011
[3]
模糊时序关联分类的知识推理及其在食品安全管理系统中的应用 [D]. 
吴建辉 .
华南理工大学,
2010
[4]
数学之美.[M].吴军; 著.人民邮电出版社.2012,
[5]
大数据.[M].涂子沛; 著.广西师范大学出版社.2012,
[6]
数据挖掘与数学建模.[M].廖芹; 郝志峰; 陈志宏; 编著.国防工业出版社.2010,
[7]
Clementine数据挖掘方法及应用.[M].薛微; 陈欢歌; 编著.电子工业出版社.2010,
[8]
SPSS统计分析从入门到精通.[M].杜强; 贾丽艳; 编著.人民邮电出版社.2009,
[9]
Excel应用大全.[M].Excel Home编著.人民邮电出版社.2008,
[10]
概率论及数理统计.[M].梁之舜[等]编著;.高等教育出版社.2005,