一种基于数据模仿和课程学习的离线强化学习方法

被引:0
专利类型
发明
申请号
CN202111544237.2
申请日
2021-12-16
公开(公告)号
CN114219085B
公开(公告)日
2025-03-28
发明(设计)人
张伟楠 刘明桓 赵寒烨
申请人
上海交通大学
申请人地址
200240 上海市闵行区东川路800号
IPC主分类号
G06N3/092
IPC分类号
G06N3/047
代理机构
上海旭诚知识产权代理有限公司 31220
代理人
郑立
法律状态
授权
国省代码
上海市 市辖区
引用
下载
收藏
共 50 条
[1]
一种基于数据模仿和课程学习的离线强化学习方法 [P]. 
张伟楠 ;
刘明桓 ;
赵寒烨 .
中国专利 :CN114219085A ,2022-03-22
[2]
一种基于扩散模型的离线强化学习方法 [P]. 
谭俊波 ;
何龙祥 ;
郭冠求 ;
王学谦 ;
梁斌 .
中国专利 :CN117669689A ,2024-03-08
[3]
多方联合更新的离线强化学习方法 [P]. 
冯黎明 ;
马煜翔 ;
裴阳 ;
刘文博 ;
邢冰 ;
王玥 .
中国专利 :CN114997410A ,2022-09-02
[4]
一种基于行为动作生成的离线强化学习方法 [P]. 
张永爱 ;
李海峰 ;
吴朝兴 ;
周雄图 ;
郭太良 .
中国专利 :CN119514639A ,2025-02-25
[5]
一种基于分数模型的离线强化学习方法 [P]. 
李秀 ;
刘泽源 ;
方智睿 ;
吕加飞 .
中国专利 :CN120087446A ,2025-06-03
[6]
一种基于凸包约束的离线强化学习方法和装置 [P]. 
詹仙园 ;
李健雄 .
中国专利 :CN114970881B ,2024-08-20
[7]
一种有效泛化的离线强化学习方法 [P]. 
冯涣婷 ;
王雪松 ;
程玉虎 ;
祝强 .
中国专利 :CN118378689A ,2024-07-23
[8]
一种基于条件扩散模型的安全离线强化学习方法 [P]. 
王丽芳 ;
李沛聪 ;
王晋光 ;
秦品乐 ;
柴锐 ;
于一 .
中国专利 :CN120317317A ,2025-07-15
[9]
一种基于逆扩散引导策略的离线强化学习方法 [P]. 
王雪松 ;
张佳志 ;
程玉虎 ;
李会军 ;
赵忠祥 .
中国专利 :CN117952186A ,2024-04-30
[10]
一种基于逆扩散引导策略的离线强化学习方法 [P]. 
王雪松 ;
张佳志 ;
程玉虎 ;
李会军 ;
赵忠祥 .
中国专利 :CN117952186B ,2024-07-12