粗糙集理论在数据挖掘领域中的应用

被引:0
作者
马昕
机构
[1] 浙江大学
关键词
数据挖掘; Rough分析; 规则归纳; 关联规则; 分类; 数据预处理;
D O I
暂无
年度学位
2003
学位类型
博士
摘要
本论文的研究内容集中在Rough集理论以及Rough分析在数据挖掘领域中的若干应用。Rough集理论是一种新型的处理不确定性知识的数学工具,围绕着数据挖掘领域存在的问题,本文利用Rough集理论与Rough分析工具,提出若干解决方案,同时在具体处理问题过程中引入了信息理论、因子分析等方法,与Rough分析结合使用,讨论了Rough集技术在知识发现、关联规则挖掘、模式分类以及数据清洗等问题中的应用。论文对数据挖掘以及Rough集理论进行了基本概述,完成的主要工作包括: 1.针对海量数据处理起来极为耗时,现有算法拓展性较差的问题,基于Rough集理论中的集合正域概念以及由此定义的属性重要性概念,提出一种大型数据表分解算法,现有的规则归纳算法可直接在分解得到的树型结构上应用,将大大降低知识发现的时间,并从信息理论的角度利用信息熵概念对该分解结构进行了验证,分析了这种分解的实用性及合理性,揭示了这种分解结构在提高计算速度的同时不会损失信息量。 2.针对关联规则挖掘过程中多次搜索数据表的问题,将Rough分析的等效类概念引入到关联规则挖掘中,针对单维布尔关联规则问题提出一种挖掘算法,同时针对单一的最小支持度阈值的缺点,提出使用多个最小支持度阈值来进行频繁项集挖掘,可使得结果规则集合更加精练,包含更多的有意义规则。利用兴趣度对规则进行评价是发掘有意义规则的重要方式,文中从主观方面给出一种兴趣度评价方式以帮助用户发现更需要的规则。 3.提出一种属性选择和属性消减方法,引入因子分析技术对条件属性进行分组,每个属性类内部的条件属性与相应的因子线性相关,所有因子是目标概念的线性组合,根据属性类或属性是否与相对应的目标概念或因子强相关,引入信息熵评价方式对之进行选择,选择出与目标概念相关的属性,剔除无关的属性。 4.将属性选择方法与Rough分析相结合,利用Rough分析可以剔除属性集合中冗余属性并进行规则归纳的能力,提出一种基于Rough分析的分类器建模算法。针对在对未知类别的对象进行预测时会遇到的多规则匹配与无规则匹配问题,定义了部分匹配函数和灵活匹配函数,根据计算得到的函数值决定未知类别对象的归属。 5.数据预处理是数据挖掘之前的必要准备步骤,针对数据预处理问题中的缺失数据与重复数据的挖掘问题提出两种算法,首先针对缺失数据问题, 浙江大学博士学位论文 利用Rough集理论通过对己知数据进行预测实现对缺失数据的填补,达到了 一定的预测精度;然后针对重复数据问题,利用数据表分解技术以及快速排 序方法实现重复数据的发现,并降低了重复数据的发现时间。 最后,对全文进行了概括性总结,并指出了有待进一步研究和完善的问
引用
收藏
页数:135
共 67 条
[1]
Rough集及Rough推理.[M].刘清著;.科学出版社.2001,
[2]
数据挖掘技术及其应用.[M].刘同明等编著;.国防工业出版社.2001,
[3]
粗集理论及其应用.[M].曾黄麟编著;.重庆大学出版社.1998,
[4]
多元统计分析引论.[M].张尧庭;方开泰著;.科学出版社.1982,
[5]
一种新的用于连续值属性离散化的约简算法 [J].
刘震宇 ;
郭宝龙 ;
杨林耀 .
控制与决策, 2002, (05) :545-549
[6]
信息熵在粗糙集理论中的应用 [J].
梁吉业 ;
孟晓伟 .
山西大学学报(自然科学版), 2002, (03) :281-284
[7]
基于粗糙集理论的柴油机神经网络故障诊断研究 [J].
曹龙汉 ;
曹长修 .
内燃机学报, 2002, (04) :357-361
[8]
基于概念格的求所有绝对属性约简的一个算法 [J].
缑锦 ;
叶东毅 .
福州大学学报(自然科学版), 2002, (03) :298-300
[9]
粗糙集理论的研究现状与前景 [J].
吴明芬 .
五邑大学学报(自然科学版), 2002, (02) :16-21
[10]
粗糙集理论中一种属性离散化算法 [J].
安利平 ;
仝凌云 .
河北工业大学学报, 2002, (03) :39-43