基于多代理Double DQN算法模拟发电侧竞价行为

被引：32

作者：

高宇 ^{[1
,2
]}

李昀 ^{[1
,2
]}

曹蓉蓉 ^{[1
,2
]}

李宁峰 ^{[1
,2
]}

高铭泽 ^{[1
,2
]}

机构：

[1] 国电南瑞科技股份有限公司

[2] 南瑞集团有限公司(国网电力科学研究院有限公司)

来源：

电网技术 | 2020年 / 44卷 / 11期

关键词：

多代理; Double DQN; 神经网络; 竞价行为; 纳什均衡;

D O I：

暂无

中图分类号：

F426.61 []; TM73 [电力系统的调度、管理、通信];

学科分类号：

120103 [信息系统与信息管理];

摘要：

强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网络估计值函数与选择动作策略,解决了Q-Learning会因为状态序列的增加导致计算量庞大甚至无法求解的问题。此外,文章根据日前市场发电商报价方式设计了报价策略并作为DDQN的动作空间,将发电商中标电量与负荷需求作为DDQN的状态序列,在tensorflow环境中模拟竞价过程。实验结果表明,使用DDQN算法模拟发电商竞价行为是可行的,并且参与竞价的发电商都达到了纳什均衡点。

引用

页码：4175 / 4183

页数：9

共 14 条

[1]

电力系统的迁移强化学习优化算法研究 [D].