离群数据的检测与分析是数据挖掘领域的主要研究内容之一,在欺诈分析、网络入侵检测等许多领域有着广泛的应用。本文针对离群数据挖掘算法大都受人为确定参数的影响,从属性的分类特性和数据集的本身特征两个方面出发,采用基尼指标作为数据离群程度的度量手段,对离群数据挖掘算法进行了研究。其主要研究成果为:
1)给出了一种基于基尼指标的离群数据挖掘方法。该算法采用基尼指标来衡量数据对象对数据集不纯度的影响程度,来刻画其离群程度;由于不需要人为输入参数,使得挖掘结果更具客观性;最后采用UCI数据和恒星光谱数据集,实验结果验证了算法的可行性和有效性。
2)给出了一种基于基尼指标加权的离群子空间与离群数据挖掘方法。该算法首先通过计算各个维上去一划分的基尼指标值,来确定数据对象的离群子空间及属性权向量;然后在离群子空间中采用基于统计的离群数据挖掘思想来挖掘离群数据;由于不需要输入参数,有效地消除了人为因素对离群数据挖掘结果的影响,并且能够有效地适应高维离群数据挖掘;最后采用UCI数据和恒星光谱数据集,实验结果验证了算法的可行性和有效性。