基于粒度计算的数据挖掘方法的研究

被引:0
作者
沈亚兰
机构
[1] 沈阳工业大学
关键词
数据挖掘; 关联规则; Apriori算法; 信息粒; 粒计算; 多层次;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
数据挖掘是一门新兴的技术,它涉及到多个学科领域的知识。数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此又被称为数据库中的知识发现。数据挖掘有很多研究方向,关联规则是其中重要的一个。关联规则挖掘能发现大量数据中项集之间的关系,可广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域。 本文讨论了挖掘关联规则的经典算法—Apriori算法和它的一些变形算法。针对Apriori算法存在的一些问题,即在求项集的支持度时需要多次扫描数据库,以及在生成候选项集时会浪费大量的时间和内存空间,本文提出了一种基于粒计算的关联规则挖掘算—AR-GrC算法。该算法AR-GrC引入了粒计算的思想,即把事务数据库中每一个项看成一个信息粒,通过扫描一次数据库得到所有项的二进制表示,利用信息粒的“与”和“或”运算求项集的支持度。该算法的优点在于只需扫描一次数据库,利用粒计算求项集的支持度,减少了时间耗费和空间占用,从而提高了规则挖掘的效率。 但是对于许多应用,由于多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。于是本文在最后提出了一种基于粒计算的多层次关联规则挖掘算法—ML-GrC算法,该算法在多层次结构中使用基于粒计算的关联规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系。它可以发现各个层次上的强关联规则,通过提高每一层次上挖掘规则的效率来改善整体挖掘效率。
引用
收藏
页数:79
共 16 条
[1]
Discovery of frequent episodes in event sequences [J].
Mannila, H ;
Toivonen, H ;
Verkamo, AI .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (03) :259-289
[2]
ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356
[3]
Rough集及Rough推理.[M].刘清著;.科学出版社.2001,
[4]
问题求解理论及应用.[M].张钹;张铃著;.清华大学出版社.1990,
[5]
模糊关联规则的并行挖掘算法 [J].
陆建江 ;
徐宝文 ;
邹晓峰 ;
康达周 .
东南大学学报(自然科学版), 2005, (02) :165-170
[6]
关联规则挖掘的基本算法 [J].
陆建江 ;
张文献 .
计算机工程, 2004, (15) :34-35+148
[7]
元规则指导下的逐步求精多层空间关联规则挖掘算法 [J].
袁红春 ;
熊范纶 .
计算机工程, 2004, (08) :34-36+39
[8]
源关联规则生成算法 [J].
李学明 ;
张伟 ;
彭军 ;
刘用国 ;
吴中福 ;
廖晓峰 .
计算机科学, 2002, (04) :61-63
[9]
邻域值信息表上的邻域逻辑及其数据推理 [J].
刘清 .
计算机学报, 2001, (04) :405-410
[10]
Rough逻辑及其在数据约简中的应用 [J].
刘清 ;
刘少辉 ;
郑非 .
软件学报, 2001, (03) :415-419