基于基尼指标和子空间的离群数据挖掘方法研究

被引:0
作者
孙伟伟
机构
[1] 太原科技大学
关键词
离群数据; 基尼指标; 离群度量因子; 属性权向量; 离群子空间;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
离群数据的检测与分析是数据挖掘领域的主要研究内容之一,在欺诈分析、网络入侵检测等许多领域有着广泛的应用。本文针对离群数据挖掘算法大都受人为确定参数的影响,从属性的分类特性和数据集的本身特征两个方面出发,采用基尼指标作为数据离群程度的度量手段,对离群数据挖掘算法进行了研究。其主要研究成果为: 1)给出了一种基于基尼指标的离群数据挖掘方法。该算法采用基尼指标来衡量数据对象对数据集不纯度的影响程度,来刻画其离群程度;由于不需要人为输入参数,使得挖掘结果更具客观性;最后采用UCI数据和恒星光谱数据集,实验结果验证了算法的可行性和有效性。 2)给出了一种基于基尼指标加权的离群子空间与离群数据挖掘方法。该算法首先通过计算各个维上去一划分的基尼指标值,来确定数据对象的离群子空间及属性权向量;然后在离群子空间中采用基于统计的离群数据挖掘思想来挖掘离群数据;由于不需要输入参数,有效地消除了人为因素对离群数据挖掘结果的影响,并且能够有效地适应高维离群数据挖掘;最后采用UCI数据和恒星光谱数据集,实验结果验证了算法的可行性和有效性。
引用
收藏
页数:54
共 20 条
[1]
动态数据环境下基于信息熵的相对离群点检测算法 [J].
孙浩 ;
何晓红 .
计算机应用, 2010, 30 (05) :1284-1286
[2]
信息熵度量的离群数据挖掘算法 [J].
张贺 ;
蔡江辉 ;
张继福 ;
乔衎 .
智能系统学报, 2010, 5 (02) :150-155
[3]
基于距离的不确定离群点检测 [J].
于浩 ;
王斌 ;
肖刚 ;
杨晓春 .
计算机研究与发展, 2010, 47 (03) :474-484
[4]
使用统计变异指标研究离群数据挖掘方法 [J].
史东辉 .
计算机工程与应用, 2009, 45 (17) :125-128
[5]
基于局部信息熵的加权子空间离群点检测算法 [J].
倪巍伟 ;
陈耿 ;
陆介平 ;
吴英杰 ;
孙志挥 .
计算机研究与发展, 2008, (07) :1189-1194
[6]
基于信息熵的相对离群点的检测方法:ENBROD [J].
于绍越 ;
商琳 .
南京大学学报(自然科学版), 2008, (02) :212-218
[7]
离群数据挖掘综述 [J].
黄洪宇 ;
林甲祥 ;
陈崇成 ;
樊明辉 .
计算机应用研究, 2006, (08) :8-13
[8]
Web日志文件的异常数据挖掘算法及其应用 [J].
赵泽茂 ;
何坤金 ;
陈鹏 ;
景雪琴 ;
蒋霞东 .
计算机工程, 2003, (17) :195-197
[9]
基于大型数据仓库的数据采掘:研究综述 [J].
胡侃 ;
夏绍玮 .
软件学报, 1998, (01)
[10]
高维数据挖掘中若干关键问题的研究 [D]. 
杨风召 .
复旦大学,
2003