现代车辆增长的速率远大于新修道路的里程数,从而导致一系列的交通拥堵问题相继出现,实时准确的交通流预测是实现智能交通控制和诱导,缓解交通拥堵的关键技术,也是建立智慧城市的客观需要。由于交通流具有随机性、非线性、时变性等特性,以精确的数学模型为基础的传统预测方法效果具有一定的局限性,因此机器学习的出现受到人们广泛关注。随机森林(Random Forest,RF)作为一种基于机器学习理论的智能模型,具有泛化能力强、稳定性高、能有效解决非线性、高维数问题等特点,在研究复杂非线性科学和人工智能方面具有一定的优势。本文研究了现有交通流预测模型的研究现状,分析了预测模型的优缺点,以及交通流数据的相关性及影响交通流变化的主要因素,以此为基础,提出了一种基于改进的KNN的监测站点筛选的融合互补集总经验模式分解的随机森林回归预测模型(KNN-CEEMD-RFR)。本文阐述了目前交通流预测的相关方法并指出其存在的局限性;主要对机器学习算法理论进行详细说明,为后续预测模型奠定基础;构建基于改进KNN的CEEMD-RFR的预测模型对短期交通流进行预测,并对模型的结构、训练过程、参数确定及具体步骤进行说明;最后,运用百度交通云平台中的河南省郑州市城市道路网的交通流数据进行验证分析。通过实验仿真分析,基于改进的KNN的CEEMD-RFR的预测方法能够有效地筛选出与待测点相关的监测站点、优化训练集、分离出交通流数据的趋势项分量和随机项分量。与一般RFR和SVR模型相比较,误差分别降低了5.51%和13.414%,预测精度达到91%。实验结果表明基于KNN的CEEMD-RFR模型能够对短期交通流量进行准确地预测,且泛化能力和抗干扰性强,该模型不仅在精确度方面优于SVR,而且在有效性、易用性等方面优于SVR。