用于目标控制的离线强化学习方法、装置和设备

被引:0
专利类型
发明
申请号
CN202111256006.1
申请日
2021-10-27
公开(公告)号
CN114186474B
公开(公告)日
2025-05-09
发明(设计)人
詹仙园 徐浩然 李健雄
申请人
清华大学
申请人地址
100084 北京市海淀区双清路30号清华大学
IPC主分类号
G06F30/27
IPC分类号
G06N3/092 G06Q10/0637 G06Q50/40 G06F111/04
代理机构
北京路浩知识产权代理有限公司 11002
代理人
耿向宇
法律状态
授权
国省代码
北京市 市辖区
引用
下载
收藏
共 50 条
[1]
用于目标控制的离线强化学习方法、装置和设备 [P]. 
詹仙园 ;
徐浩然 ;
李健雄 .
中国专利 :CN114186474A ,2022-03-15
[2]
用于交通信号控制的离线强化学习方法及设备 [P]. 
武强 .
中国专利 :CN119418521A ,2025-02-11
[3]
多方联合更新的离线强化学习方法 [P]. 
冯黎明 ;
马煜翔 ;
裴阳 ;
刘文博 ;
邢冰 ;
王玥 .
中国专利 :CN114997410A ,2022-09-02
[4]
基于状态偏移矫正的离线强化学习方法及装置 [P]. 
季向阳 ;
张宏昌 ;
邵键准 .
中国专利 :CN114781248A ,2022-07-22
[5]
用于引导的离线强化学习的方法和装置 [P]. 
黄高 ;
杨琪森 ;
王慎执 ;
张启航 ;
石文杰 ;
周海刚 ;
宋士吉 ;
陆肖楠 .
德国专利 :CN119895440A ,2025-04-25
[6]
一种基于元目标学习的强化学习方法 [P]. 
邓世龙 ;
范江东 ;
曾科言 ;
何鸿才 ;
邵杰 .
中国专利 :CN119721175A ,2025-03-28
[7]
一种基于元目标学习的强化学习方法 [P]. 
邓世龙 ;
范江东 ;
曾科言 ;
何鸿才 ;
邵杰 .
中国专利 :CN119721175B ,2025-11-14
[8]
一种基于样本质量评估的离线强化学习方法和装置 [P]. 
刘俊涛 ;
李游 ;
汤海南 .
中国专利 :CN117422127A ,2024-01-19
[9]
强化学习方法及装置 [P]. 
王芳 ;
暴宇健 .
中国专利 :CN117474121A ,2024-01-30
[10]
一种离线强化学习方法、装置、设备及存储介质 [P]. 
谢永健 ;
王振杰 ;
李昊 ;
刘俊涛 ;
罗荣 .
中国专利 :CN117829253A ,2024-04-05