一种基于样本质量评估的离线强化学习方法和装置

被引：0

专利类型：

发明

申请号：

CN202311490398.7

申请日：

2023-11-08

公开(公告)号：

CN117422127A

公开(公告)日：

2024-01-19

发明(设计)人：

刘俊涛李游汤海南

申请人：

中国船舶集团有限公司第七〇九研究所

申请人地址：

430000 湖北省武汉市江夏区凤凰产业园藏龙北路1号

IPC主分类号：

G06N3/092

IPC分类号：

G06N3/048 G06N3/0464 G06N3/047

代理机构：

深圳市六加知识产权代理有限公司 44372

代理人：

张甲一

法律状态：

实质审查的生效

国省代码：

上海市市辖区

引用

下载

收藏

法律状态

法律状态公告日	法律状态	法律状态信息
2024-02-06	实质审查的生效	实质审查的生效IPC(主分类):G06N 3/092申请日:20231108
2024-01-19	公开	公开

共 50 条

[1]

用于目标控制的离线强化学习方法、装置和设备 [P].

詹仙园 ;

徐浩然 ;

李健雄 .

中国专利 :CN114186474A ,2022-03-15

[2]

用于目标控制的离线强化学习方法、装置和设备 [P].

詹仙园 ;

徐浩然 ;

李健雄 .

中国专利 :CN114186474B ,2025-05-09

[3]

一种基于数据模仿和课程学习的离线强化学习方法 [P].

张伟楠 ;

刘明桓 ;

赵寒烨 .

中国专利 :CN114219085A ,2022-03-22

[4]

一种基于数据模仿和课程学习的离线强化学习方法 [P].

张伟楠 ;

刘明桓 ;

赵寒烨 .

中国专利 :CN114219085B ,2025-03-28

[5]

一种基于扩散模型的离线强化学习方法 [P].

谭俊波 ;

何龙祥 ;

郭冠求 ;

王学谦 ;

梁斌 .

中国专利 :CN117669689A ,2024-03-08

[6]

一种基于凸包约束的离线强化学习方法和装置 [P].

詹仙园 ;

李健雄 .

中国专利 :CN114970881B ,2024-08-20

[7]

一种基于同策略正则化策略评估的离线强化学习方法 [P].

程玉虎 ;

曹硕 ;

王雪松 ;

李会军 ;

赵忠祥 .

中国专利 :CN117875451A ,2024-04-12

[8]

一种基于行为动作生成的离线强化学习方法 [P].

张永爱 ;

李海峰 ;

吴朝兴 ;

周雄图 ;

郭太良 .

中国专利 :CN119514639A ,2025-02-25

[9]

一种基于分数模型的离线强化学习方法 [P].

李秀 ;

刘泽源 ;

方智睿 ;

吕加飞 .

中国专利 :CN120087446A ,2025-06-03

[10]

一种基于贝尔曼误差导向策略的离线强化学习方法 [P].

程玉虎 ;

冯涣婷 ;

王雪松 .

中国专利 :CN119539021A ,2025-02-28

← 1 2 3 4 5 →