三峡库区不仅是长江流域的生态安全屏障,更是全国淡水资源的战略储备基地。二期蓄水完成后,水流减缓,自净能力下降,库区水环境监测及数据分析的重要性日益凸显。本项目组从2008年开始在重庆市自然科学基金的资助下,采用无线传感器网络(WSN)对库区水环境监测进行研究并取得了一系列成果。本文重点开展库区水环境监测的数据分析算法研究,以构建快速有效的水质评估分析方法,为库区水环境保护提供参考。研究表明,通过WSN监测平台采集到的库区水环境监测样本具有数据量大、向量维度高、属性多等特征,现有的水质分析方法难以满足实际需求,急需一种快速有效的水环境监测数据分析处理方法。为此,本文根据项目需求,分析了监测样本的基本特征,研究了常用的数据分析方法,提出了一种适用于三峡库区水环境监测的快速数据分析算法。论文主要工作如下:(1)为了实现对库区水环境的实时监测,搭建了基于WSN的三峡库区水环境监测平台,并依托该平台完成了对部分水质指标的采集,为库区水环境监测的数据分析提供了实时数据样本。(2)为了实现对监测数据的高效分析,对样本特征进行了研究,通过MySQL与Excel相结合的方法对其进行清洗,并运用SPSS软件完成了主成分分析,最终选定溶解氧(DO)、高锰酸盐指数(CODMn)及氨氮(NH3-N)3个水质指标作为特征因子。(3)研究了数据挖掘中常用的模糊C-均值(FCM)聚类算法,分析了其存在的缺点并提出了相应改进措施。针对传统FCM聚类算法对初始迭代中心敏感的问题,结合硬C-均值(HCM)聚类算法,采用快速模糊C-均值聚类算法(FFCM),实现了对初始迭代中心的改进,减少了迭代次数。(4)上述算法的改进,其聚类数目仍需人为设定,因此,结合Canopy算法,提出了一种自适应最佳聚类数的Canopy-FCM聚类算法。该算法既解决了对初始迭代中心的优化选取问题,又实现了最佳聚类数的自适应确定。理论分析及仿真结果表明,该算法比FCM算法和FFCM算法具有更优的聚类结果。