随着社会信息化程度的提高,数据量呈指数增长。从大量数据中快速有效地获得最有价值的信息资源在当今信息时代具有重要意义。因此,与数据挖掘相关的技术和工具面临很好的发展前景。其中,分类预测技术作为智能决策的重要手段将在未来的智能系统中发挥重要作用。本文对关联分类技术做了全面系统的研究,对典型算法做了详细的理论阐述。同时针对现有关联分类算法存在受支持度阈值和置信度阈值设置影响的问题进行了改进,提出了基于支持度与置信度阈值优化技术的关联分类算法(AprioriTFP CMAR(HC)),并在该算法基础上设计和实现了一个规则提取系统。
首先,本文对关联分类技术目前的研究现状以及与之相关的部分领域,如关联规则挖掘技术进行了概述。然后,研究了AprioriTFP关联规则挖掘算法以及CMAR关联分类算法,并且通过结合两者的关键技术(改进的数据存储结构),实现了一种新的关联分类算法AprioriTFP CMAR,经过实验验证,该算法取得了较好的分类效果,减少了运算时间和存储空间的占用。此后,本文重点通过设计利用了爬山法搜索技术来获得使分类准确率最高的支持度与置信度阈值,从而解决了目前关联分类算法普遍存在的问题:分类的准确性受到人为设定的支持度与置信度阈值的影响,难以保证分类器总能达到较好的分类效果。最后,本文设计并实现了一个基于AprioriTFP CMAR(HC)算法的规则提取系统,该系统同时集成了数据预处理功能,并且得到了较好的实验测试结果。