孤立点挖掘及其内涵知识发现的研究与应用

被引:0
作者
陆声链
机构
[1] 广西师范大学
关键词
孤立点; 异常挖掘; 频繁项集; 例外规则; 教务管理系统;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
孤立点挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测。孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值。因此,异常数据的检测和分析是一项重要且有意义的研究工作。 本文的主要工作可以概括为以下五个方面: (1)从孤立点挖掘的现实意义、算法、应用领域、挖掘工具、算法的评价等各个方面对孤立点挖掘问题进行了综述。 (2)针对基于距离的方法需要设置阈值的不足,本文提出了一个新的孤立点定义,通过对象与数据集中所有其它对象的距离之和来判别异常,从而有效解决了算法需要设置最近邻参数p 或者k 的问题。为提高算法的效率,设计了基于抽样的近似检测算法。真实数据集上的实验表明该定义与DB(p,d)孤立点定义有相同的结果,同时给出了数据对象在数据集中的孤立程度,降低了阈值设置对用户的要求。 (3)对分类、多维数据中的局部异常检测问题进行了研究,基于属性值的频数差异性理论给出了一个新的异常定义,并提出了判断异常显著性的异常存在判别准则,实验结果表明,该判别准则可有效去除大量异常程度并不显著的对象。文章从检测结果的有趣性、与同类算法的比较、对提高分类准确率的贡献和检测小类的能力四个方面对算法的有效性进行了评价。 (4)实现了一个异常检测实验平台SOD(Smart Outlier Detection),其中集成了所提出或改进的算法,为异常检测提供了一个分析工具。所提供的数据接口能够从多个外部数据源获取数据,增强了平台的实用性,现已集成到某高校的教务管理系统中进行测试。(5)结合教务管理系统的特点,探讨了在教务管理系统中使用异常检测的必要性,并就实际需求给出了应用实例。 本文的研究目的是构建一个从真实数据中检测异常数据及发现其内涵知识的实验平台,主要包括有机结合的五个方面:消除阈值设置的基于距离和的近似算法;针对分类数据、高维数据的异常检测算法;为有效发现异常中的内涵知识的例外规则挖掘算法;针对子序列长度相等的静态时间序列数据中的异常挖掘算法;集成了以上几种算法的实验平台。 异常检测的最终目的在于应用,本文对异常挖掘在教务管理系统中的应用进行了有益的探索。
引用
收藏
页数:73
共 17 条
[1]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[2]
高校教务管理系统的设计与实现 [J].
黄万华 ;
陆声链 ;
王志星 .
计算机与数字工程, 2005, (01) :114-116+124
[3]
基于Matlab的贝叶斯分类器实验平台MBNC [J].
程泽凯 ;
林士敏 ;
陆玉昌 ;
蒋望东 ;
陆小艺 .
复旦学报(自然科学版), 2004, (05) :729-732
[4]
基于粗糙集的高维空间离群点发现算法研究 [J].
许龙飞 ;
熊君丽 .
计算机工程与应用, 2004, (07) :58-60+77
[5]
挖掘支持度和兴趣度最优的数量关联规则 [J].
吉根林 ;
孙志挥 .
小型微型计算机系统, 2004, (02) :225-228
[6]
空间例外的识别及其内涵知识的发现 [J].
邹力鹍 ;
王丽珍 ;
何婧 ;
不详 .
计算机工程与应用 , 2003, (35) :172-174+188
[7]
基于网格上近似的大规模数据集离群点检测算法GROUT [J].
李存华 ;
孙志挥 ;
陈耿 .
计算机应用研究, 2003, (09) :134-136
[8]
时间序列中快速模式发现算法的研究 [J].
黄河 ;
黄轲 ;
杭小树 ;
熊范纶 ;
不详 .
计算机工程与应用 , 2003, (21) :192-194
[9]
数据仓库中数据质量若干问题的研究 [J].
杜永明 .
福建电脑, 2003, (01) :10-12
[10]
高维空间中的离群点发现 [J].
魏藜 ;
宫学庆 ;
钱卫宁 ;
周傲英 .
软件学报, 2002, (02) :280-290