数据挖掘中数据预处理的方法研究

被引:0
作者
方洪鹰
机构
[1] 西南大学
关键词
数据挖掘; 数据预处理; 统计方法; 非线性相关分析;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
在现代的科研和实际工作中,各行各业都需要对采集到的各种各样的数据进行处理。如何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描述数据的整体特征,可以预测发展趋势,从而生成决策。这就需要进行数据挖掘。 数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现,在数据挖掘与知识发现的过程中,数据预处理占到了整个工作量的60%。因为现实世界的数据往往是不完整的、含噪声的和不一致的,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。 目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。 本文总结了目前数据预处理的常刚方法,并对其分析和思考。发现有些方法可以在数据预处理的不同阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方法,但需要与实际的数据特征和专业知识相结合才能有效地应用。强调了在预处理的每一个步骤都要与专业知识和实际应用相结合。考虑到若在数据获得初期就有一定的指导,可以减少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间,因此认为应该把数据源的获取作为预处理的一个步骤。在预处理的实际应用过程中,上述步骤并不是相互独立的,而是相关联的,因而提倡对数据预处理采取循环的模式。最后针对银行房贷信用风险评估课题中所遇到的数据预处理问题,结合数据特征,考虑到与之相关的各个因素的内在相关性,使用一种基于全局的非线性相关分析技术,这是一种统计方法,来对该问题进行讨论,并且实证研究。
引用
收藏
页数:48
共 23 条
[1]
数据挖掘与知识发现.[M].李雄飞;李军编著;.高等教育出版社.2003,
[2]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[3]
多元统计分析.[M].于秀林;任雪松编著;.中国统计出版社.1999,
[4]
重大自然灾害遥感监测与评估集成系统.[M].池天河等著;.中国科学技术出版社.1995,
[5]
问题求解理论及应用.[M].张钹;张铃著;.清华大学出版社.1990,
[6]
数据挖掘中的一种数据预处理方法 [J].
史望聪 ;
耿健 .
科技资讯, 2009, (17) :27+29
[7]
浅析数据挖掘技术及应用 [J].
张金仙 .
科技资讯, 2008, (29) :27+29
[8]
基于遗传算法的组合数据预处理技术 [J].
任建华 ;
汪赫瑜 .
沈阳农业大学学报, 2008, (01) :121-123
[9]
数据挖掘研究进展.[J].罗斌;.中国水运(学术版).2007, 07
[10]
基于混合优化算法的数据预处理算法Ⅱ [J].
陈莉 ;
焦李成 .
计算机应用与软件, 2007, (03) :22-24