基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究

被引：56

作者：

张虹 ^{[1
]}

申鑫 ^{[1
]}

穆昊源 ^{[2
]}

刘艾冬 ^{[1
]}

王鹤 ^{[1
]}

机构：

[1] 东北电力大学电气工程学院

[2] 伦敦大学城市学院电气电子工程学院

来源：

中国电机工程学报 | 2020年 / 40卷 / 01期

关键词：

异步优势演员–评判家; 需求响应; 概率分布; 在线优化; 多智能体; 多动作决策;

D O I：

暂无

中图分类号：

TM73 [电力系统的调度、管理、通信];

学科分类号：

120103 [信息系统与信息管理];

摘要：

为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。

引用

页码：117 / 127+379 +379

页数：12

共 7 条

[1]

家庭智能用电任务调度优化模型及其算法研究 [J].

陆青 ;

郁浩 ;

冷亚军 ;

侯建朝 ;

谢品杰 .

中国电机工程学报, 2018, 38 (13) :3826-3836+4023

[2]

基于深度置信网络的电力系统暂态稳定评估方法 [J].

朱乔木 ;

党杰 ;

陈金富 ;

徐友平 ;

李银红 ;

段献忠 .

中国电机工程学报, 2018, 38 (03) :735-743

[3]

Evaluating reinforcement learning state representations for adaptive traffic signal control.[J].Wade Genders;Saiedeh Razavi.Procedia Computer Science.2018,

[4]

Estimating building energy consumption using extreme learning machine method.[J].Sareh Naji;Afram Keivani;Shahaboddin Shamshirband;U. Johnson Alengaram;Mohd Zamin Jumaat;Zulkefli Mansor;Malrey Lee.Energy.2016,

[5]

Learning Automata Algorithms for Load Scheduling [J].

Ali, Syed Q. ;

Parambath, Imthias Ahamed T. ;

Malik, Nazar H. .

ELECTRIC POWER COMPONENTS AND SYSTEMS, 2013, 41 (03) :286-303

[6]

A fast learning algorithm for deep belief nets [J].

Hinton, Geoffrey E. ;

Osindero, Simon ;

Teh, Yee-Whye .

NEURAL COMPUTATION, 2006, 18 (07) :1527-1554

[7]

Learning to predict by the methods of temporal differences.[J].Richard S. Sutton.Machine Learning.1988, 1

← 1 →