数据挖掘中的数据预处理

被引:0
作者
关大伟
机构
[1] 吉林大学
关键词
数据挖掘; 数据预处理; 维规约; 聚集; 过滤异常值; 重复记录处理;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着社会的发展和数据库的应用,各领域的应用数据库中都积累了大量的历史数据。如何利用这些有潜在价值的数据,从中提取出有用的信息和知识,是应用者日益关注的问题,也是数据挖掘技术的关键所在。要进行数据挖掘,首先要保证数据质量,良好的数据能提高数据挖掘效果和效率,数据预处理逐渐成为数据挖掘不可缺少的重要前提。 在数据挖掘的过程中如果只着眼于数据挖掘算法的探讨,而忽视了对数据预处理的研究,在一定程度上往往会失去数据挖掘的某些重要意义。因为实际系统中的数据一般都具有不完整性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。另外,海量的数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此,对不理想的原始数据进行有效的归纳和预处理,已经成为数据挖掘系统实现过程中的关键问题。 本文通过对数据挖掘、数据预处理技术和理论的学习,以及对国内外数据挖掘与数据预处理系统的发展情况的研究,归纳总结了国内、外数据挖掘系统中数据预处理的特点,根据当今数据挖掘技术和数据挖掘系统的发展趋势,设计了一个数据预处理系统,该软件设计实现的预处理系统主要包括数据预处理过程中最常用、最直接、最有效的和有一定通用价值的维规约、聚集、过滤异常值、去掉重复记录处理,软件在一定程度上实现了对大量数据的清洗工作,为进一步数据挖掘提供了可靠的数据保障。
引用
收藏
页数:71
共 14 条
[1]
数据挖掘中数据预处理技术综述 [J].
刘莉 ;
徐玉生 ;
马志新 .
甘肃科学学报, 2003, (01) :117-119
[2]
数据挖掘应用现状与产品分析 [J].
高敏 .
微计算机应用, 2002, (05) :281-285
[3]
基于邻接关系的空间数据挖掘 [J].
吴信才 ;
刘少雄 .
计算机工程, 2002, (07) :89-91
[4]
基于粗集理论的数据离散化新算法 [J].
赵军 ;
王国胤 ;
吴中福 ;
李华 .
重庆大学学报(自然科学版), 2002, (03) :18-21
[5]
Web使用挖掘:从Web数据中发现用户使用模式 [J].
陈恩红 ;
徐涌 ;
王煦法 .
计算机科学, 2001, (05) :85-88
[6]
用于特征筛选的最近邻(KNN)法 [J].
姚莉秀 ;
杨杰 ;
叶晨洲 ;
陈念贻 .
计算机与应用化学, 2001, (02) :135-138
[7]
数据挖掘工具和应用中的问题 [J].
郝先臣 ;
张德干 ;
高光来 ;
赵海 .
东北大学学报, 2001, (02) :183-187
[8]
Web挖掘研究 [J].
韩家炜 ;
孟小峰 ;
王静 ;
李盛恩 .
计算机研究与发展, 2001, (04) :405-414
[9]
Internet/Web数据挖掘研究现状及最新进展 [J].
陈莉 ;
焦李成 .
西安电子科技大学学报, 2001, (01) :114-119
[10]
数据挖掘中的数据预处理 [J].
刘明吉 ;
王秀峰 ;
黄亚楼 .
计算机科学, 2000, (04) :54-57