一种基于样本质量评估的离线强化学习方法和装置

被引:0
专利类型
发明
申请号
CN202311490398.7
申请日
2023-11-08
公开(公告)号
CN117422127A
公开(公告)日
2024-01-19
发明(设计)人
刘俊涛 李游 汤海南
申请人
中国船舶集团有限公司第七〇九研究所
申请人地址
430000 湖北省武汉市江夏区凤凰产业园藏龙北路1号
IPC主分类号
G06N3/092
IPC分类号
G06N3/048 G06N3/0464 G06N3/047
代理机构
深圳市六加知识产权代理有限公司 44372
代理人
张甲一
法律状态
实质审查的生效
国省代码
上海市 市辖区
引用
下载
收藏
共 50 条
[1]
用于目标控制的离线强化学习方法、装置和设备 [P]. 
詹仙园 ;
徐浩然 ;
李健雄 .
中国专利 :CN114186474A ,2022-03-15
[2]
用于目标控制的离线强化学习方法、装置和设备 [P]. 
詹仙园 ;
徐浩然 ;
李健雄 .
中国专利 :CN114186474B ,2025-05-09
[3]
一种基于数据模仿和课程学习的离线强化学习方法 [P]. 
张伟楠 ;
刘明桓 ;
赵寒烨 .
中国专利 :CN114219085A ,2022-03-22
[4]
一种基于数据模仿和课程学习的离线强化学习方法 [P]. 
张伟楠 ;
刘明桓 ;
赵寒烨 .
中国专利 :CN114219085B ,2025-03-28
[5]
一种基于扩散模型的离线强化学习方法 [P]. 
谭俊波 ;
何龙祥 ;
郭冠求 ;
王学谦 ;
梁斌 .
中国专利 :CN117669689A ,2024-03-08
[6]
一种基于凸包约束的离线强化学习方法和装置 [P]. 
詹仙园 ;
李健雄 .
中国专利 :CN114970881B ,2024-08-20
[7]
一种基于同策略正则化策略评估的离线强化学习方法 [P]. 
程玉虎 ;
曹硕 ;
王雪松 ;
李会军 ;
赵忠祥 .
中国专利 :CN117875451A ,2024-04-12
[8]
一种基于行为动作生成的离线强化学习方法 [P]. 
张永爱 ;
李海峰 ;
吴朝兴 ;
周雄图 ;
郭太良 .
中国专利 :CN119514639A ,2025-02-25
[9]
一种基于分数模型的离线强化学习方法 [P]. 
李秀 ;
刘泽源 ;
方智睿 ;
吕加飞 .
中国专利 :CN120087446A ,2025-06-03
[10]
一种基于贝尔曼误差导向策略的离线强化学习方法 [P]. 
程玉虎 ;
冯涣婷 ;
王雪松 .
中国专利 :CN119539021A ,2025-02-28