学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种基于样本质量评估的离线强化学习方法和装置
被引:0
专利类型
:
发明
申请号
:
CN202311490398.7
申请日
:
2023-11-08
公开(公告)号
:
CN117422127A
公开(公告)日
:
2024-01-19
发明(设计)人
:
刘俊涛
李游
汤海南
申请人
:
中国船舶集团有限公司第七〇九研究所
申请人地址
:
430000 湖北省武汉市江夏区凤凰产业园藏龙北路1号
IPC主分类号
:
G06N3/092
IPC分类号
:
G06N3/048
G06N3/0464
G06N3/047
代理机构
:
深圳市六加知识产权代理有限公司 44372
代理人
:
张甲一
法律状态
:
实质审查的生效
国省代码
:
上海市 市辖区
引用
下载
收藏
法律状态
法律状态公告日
法律状态
法律状态信息
2024-02-06
实质审查的生效
实质审查的生效IPC(主分类):G06N 3/092申请日:20231108
2024-01-19
公开
公开
共 50 条
[1]
用于目标控制的离线强化学习方法、装置和设备
[P].
詹仙园
论文数:
0
引用数:
0
h-index:
0
詹仙园
;
徐浩然
论文数:
0
引用数:
0
h-index:
0
徐浩然
;
李健雄
论文数:
0
引用数:
0
h-index:
0
李健雄
.
中国专利
:CN114186474A
,2022-03-15
[2]
用于目标控制的离线强化学习方法、装置和设备
[P].
论文数:
引用数:
h-index:
机构:
詹仙园
;
论文数:
引用数:
h-index:
机构:
徐浩然
;
李健雄
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
李健雄
.
中国专利
:CN114186474B
,2025-05-09
[3]
一种基于数据模仿和课程学习的离线强化学习方法
[P].
张伟楠
论文数:
0
引用数:
0
h-index:
0
张伟楠
;
刘明桓
论文数:
0
引用数:
0
h-index:
0
刘明桓
;
赵寒烨
论文数:
0
引用数:
0
h-index:
0
赵寒烨
.
中国专利
:CN114219085A
,2022-03-22
[4]
一种基于数据模仿和课程学习的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
张伟楠
;
刘明桓
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学
上海交通大学
刘明桓
;
赵寒烨
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学
上海交通大学
赵寒烨
.
中国专利
:CN114219085B
,2025-03-28
[5]
一种基于扩散模型的离线强化学习方法
[P].
谭俊波
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
谭俊波
;
何龙祥
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
何龙祥
;
郭冠求
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
郭冠求
;
论文数:
引用数:
h-index:
机构:
王学谦
;
论文数:
引用数:
h-index:
机构:
梁斌
.
中国专利
:CN117669689A
,2024-03-08
[6]
一种基于凸包约束的离线强化学习方法和装置
[P].
论文数:
引用数:
h-index:
机构:
詹仙园
;
李健雄
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
李健雄
.
中国专利
:CN114970881B
,2024-08-20
[7]
一种基于同策略正则化策略评估的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
曹硕
;
论文数:
引用数:
h-index:
机构:
王雪松
;
论文数:
引用数:
h-index:
机构:
李会军
;
论文数:
引用数:
h-index:
机构:
赵忠祥
.
中国专利
:CN117875451A
,2024-04-12
[8]
一种基于行为动作生成的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
张永爱
;
李海峰
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学
福州大学
李海峰
;
论文数:
引用数:
h-index:
机构:
吴朝兴
;
论文数:
引用数:
h-index:
机构:
周雄图
;
论文数:
引用数:
h-index:
机构:
郭太良
.
中国专利
:CN119514639A
,2025-02-25
[9]
一种基于分数模型的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
李秀
;
刘泽源
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
刘泽源
;
方智睿
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
方智睿
;
吕加飞
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
吕加飞
.
中国专利
:CN120087446A
,2025-06-03
[10]
一种基于贝尔曼误差导向策略的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
冯涣婷
;
论文数:
引用数:
h-index:
机构:
王雪松
.
中国专利
:CN119539021A
,2025-02-28
←
1
2
3
4
5
→