配电网中光伏、风机设备出力随机波动以及负荷波动带来的电压波动、网损增加等问题,给配电网在线无功优化带来了挑战。本文采用一种无模型的深度确定性策略梯度(MADDPG)算法多智能体强化学习框架,采用集中训练、分散执行的方式解决无功优化问题。MADDPG算法将每一个智能体当作一个行动者(Actor),在离线训练过程中每个Actor可以借助一个评论家(Critic)进行训练。所提策略用深度神经网络拟合可投切电容器、有载调压变压器分接头以及分布式电源逆变器的动作函数,在和配电网环境交互过程中完成深度神经网络的训练。利用该强化学习算法在线实时决策无功调节设备的调度方案,此方法不需要通过精确的潮流建模,也不依赖于日前的数据预测,适用于通信能力较弱的部分观测配电网。最后,通过算例来验证MADDPG算法的有效性。