基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究

被引:56
作者
张虹 [1 ]
申鑫 [1 ]
穆昊源 [2 ]
刘艾冬 [1 ]
王鹤 [1 ]
机构
[1] 东北电力大学电气工程学院
[2] 伦敦大学城市学院电气电子工程学院
关键词
异步优势演员–评判家; 需求响应; 概率分布; 在线优化; 多智能体; 多动作决策;
D O I
暂无
中图分类号
TM73 [电力系统的调度、管理、通信];
学科分类号
120103 [信息系统与信息管理];
摘要
为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。
引用
收藏
页码:117 / 127+379 +379
页数:12
相关论文
共 7 条
[1]
家庭智能用电任务调度优化模型及其算法研究 [J].
陆青 ;
郁浩 ;
冷亚军 ;
侯建朝 ;
谢品杰 .
中国电机工程学报, 2018, 38 (13) :3826-3836+4023
[2]
基于深度置信网络的电力系统暂态稳定评估方法 [J].
朱乔木 ;
党杰 ;
陈金富 ;
徐友平 ;
李银红 ;
段献忠 .
中国电机工程学报, 2018, 38 (03) :735-743
[3]
Evaluating reinforcement learning state representations for adaptive traffic signal control.[J].Wade Genders;Saiedeh Razavi.Procedia Computer Science.2018,
[4]
Estimating building energy consumption using extreme learning machine method.[J].Sareh Naji;Afram Keivani;Shahaboddin Shamshirband;U. Johnson Alengaram;Mohd Zamin Jumaat;Zulkefli Mansor;Malrey Lee.Energy.2016,
[5]
Learning Automata Algorithms for Load Scheduling [J].
Ali, Syed Q. ;
Parambath, Imthias Ahamed T. ;
Malik, Nazar H. .
ELECTRIC POWER COMPONENTS AND SYSTEMS, 2013, 41 (03) :286-303
[6]
A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[7]
Learning to predict by the methods of temporal differences.[J].Richard S. Sutton.Machine Learning.1988, 1