关联分类算法研究及其系统实现

被引:0
作者
张健
机构
[1] 南京师范大学
关键词
关联规则; 关联分类; 支持度阈值; 置信度阈值; 爬山法; 规则提取系统;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着社会信息化程度的提高,数据量呈指数增长。从大量数据中快速有效地获得最有价值的信息资源在当今信息时代具有重要意义。因此,与数据挖掘相关的技术和工具面临很好的发展前景。其中,分类预测技术作为智能决策的重要手段将在未来的智能系统中发挥重要作用。本文对关联分类技术做了全面系统的研究,对典型算法做了详细的理论阐述。同时针对现有关联分类算法存在受支持度阈值和置信度阈值设置影响的问题进行了改进,提出了基于支持度与置信度阈值优化技术的关联分类算法(AprioriTFP CMAR(HC)),并在该算法基础上设计和实现了一个规则提取系统。 首先,本文对关联分类技术目前的研究现状以及与之相关的部分领域,如关联规则挖掘技术进行了概述。然后,研究了AprioriTFP关联规则挖掘算法以及CMAR关联分类算法,并且通过结合两者的关键技术(改进的数据存储结构),实现了一种新的关联分类算法AprioriTFP CMAR,经过实验验证,该算法取得了较好的分类效果,减少了运算时间和存储空间的占用。此后,本文重点通过设计利用了爬山法搜索技术来获得使分类准确率最高的支持度与置信度阈值,从而解决了目前关联分类算法普遍存在的问题:分类的准确性受到人为设定的支持度与置信度阈值的影响,难以保证分类器总能达到较好的分类效果。最后,本文设计并实现了一个基于AprioriTFP CMAR(HC)算法的规则提取系统,该系统同时集成了数据预处理功能,并且得到了较好的实验测试结果。
引用
收藏
页数:51
共 7 条
[1]
Scoring the data using association rules [J].
Liu, B ;
Ma, YM ;
Wong, CK .
APPLIED INTELLIGENCE, 2003, 18 (02) :119-135
[2]
基于模糊分类关联规则的分类系统 [J].
邹晓峰 ;
陆建江 ;
宋自林 .
计算机研究与发展, 2003, (05) :651-656
[3]
相关测度与增量式支持度和信任度的计算 [J].
王晓峰 ;
王天然 .
软件学报, 2002, (11) :2208-2214
[4]
基于特征元素和关联规则的图象分类方法 [J].
李勍 ;
章毓晋 .
电子学报, 2002, (09) :1262-1265
[5]
一种多支持度的关联规则采集算法 [J].
楼晓鸿 ;
丁宝康 .
计算机工程, 2001, (06) :102-103
[6]
启发式搜索策略(爬山法)的改进与实现 [J].
汪西原 ;
汪西莉 .
陕西师范大学学报(自然科学版), 1999, (01)
[7]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,