面向数据驱动建模的数据预处理方法研究

被引:0
作者
任志伟
机构
[1] 河南科技大学
关键词
数据驱动建模; 数据预处理; 电站锅炉; 缺失值填补; 异常值检测;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
由于生产工艺、技术及设备的日趋复杂化,经典控制理论中依据物理化学机理建立精确数学模型对生产过程进行控制的传统方法已变得越来越困难。在此背景下,数据驱动思想得到快速发展,然而采集于生产过程中的监测数据往往存在含有缺失值、异常值等数据质量问题,如果直接利用这些未经处理的数据进行数据驱动作预测或决策,所建模型的准确性会受到极大影响,甚至产生错误的分析结果。因此,在数据驱动建模前必须对数据进行预处理。 本文首先对数据驱动以及数据预处理的发展进行了回顾和总结,介绍了数据驱动建模的相关理论知识,对数据预处理的基本任务和相应的主要方法作了详细阐述。 然后,本文对缺失值填补问题进行了重点研究。在总结分析现有主要填补方法的基础上,针对工业过程监测数据的实际特点,提出了一种基于遗传优化的自适应填补算法,并成功运用于电站锅炉监测数据的缺失值填补,对于不同工况下产生的缺失值以及在缺失率较高的情况下,该算法都具有较为理想的准确率与稳定性。 之后,着重研究了异常值检测问题。在比较学习异常值检测主要算法优缺点的基础上,给出一种基于全局距离和的异常值检测算法,不仅消除了经典的基于距离的异常值检测算法对参数设置的敏感性,而且降低了数据分布不均对检测算法的影响,同时量化了异常值的异常程度。在电站锅炉监测数据上仿真分析,结果表明该算法具有较高查全率和较低误报率。 最后,分别利用未经预处理和经本文所提算法预处理的数据建立基于最小二乘支持向量机的电站锅炉烟气含氧量软测量模型,通过对比所建模型的准确度,表明本文所提的基于遗传优化的自适应缺失值填补算法和基于全局距离和的异常值检测算法等数据预处理算法有效改善了数据质量,为监控电站锅炉的运行、提高其燃烧效率及降低污染排放奠定了坚实的数据基础。
引用
收藏
页数:75
共 68 条
[1]
面向数据挖掘的数据预处理系统设计与实现 [D]. 
赵飞国 .
北京交通大学,
2011
[2]
基于孤立系数的孤立点检测研究 [D]. 
刘世杰 .
中南大学,
2011
[3]
缺失数据的填充方法研究及实证分析 [D]. 
邓银燕 .
西北大学,
2010
[4]
重复和不完整数据的清理方法研究及应用 [D]. 
鲁均云 .
江苏大学,
2009
[5]
离群点预处理及检测算法研究 [D]. 
王雪英 .
西南交通大学,
2009
[6]
电站锅炉燃烧系统软测量及稳态优化研究 [D]. 
崔宇 .
中国科学技术大学,
2009
[7]
Outlier detection for patient monitoring and alerting.[J].Milos Hauskrecht;Iyad Batal;Michal Valko;Shyam Visweswaran;Gregory F. Cooper;Gilles Clermont.Journal of Biomedical Informatics.2012,
[8]
Predicting missing biomarker data in a longitudinal study of Alzheimer disease [J].
Lo, Raymond Y. ;
Jagust, William J. .
NEUROLOGY, 2012, 78 (18) :1376-1382
[9]
Integrating independent component analysis and local outlier factor for plant-wide process monitoring [J].
Lee, Jaeshin ;
Kang, Bokyoung ;
Kang, Suk-Ho .
JOURNAL OF PROCESS CONTROL, 2011, 21 (07) :1011-1021
[10]
Outlier detection in relational data: A case study in geographical information systems.[J].Joris Maervoet;Celine Vens;Greet Vanden Berghe;Hendrik Blockeel;Patrick De Causmaecker.Expert Systems With Applications.2011, 5