学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种基于数据模仿和课程学习的离线强化学习方法
被引:0
专利类型
:
发明
申请号
:
CN202111544237.2
申请日
:
2021-12-16
公开(公告)号
:
CN114219085B
公开(公告)日
:
2025-03-28
发明(设计)人
:
张伟楠
刘明桓
赵寒烨
申请人
:
上海交通大学
申请人地址
:
200240 上海市闵行区东川路800号
IPC主分类号
:
G06N3/092
IPC分类号
:
G06N3/047
代理机构
:
上海旭诚知识产权代理有限公司 31220
代理人
:
郑立
法律状态
:
授权
国省代码
:
上海市 市辖区
引用
下载
收藏
法律状态
法律状态公告日
法律状态
法律状态信息
2025-03-28
授权
授权
共 50 条
[1]
一种基于数据模仿和课程学习的离线强化学习方法
[P].
张伟楠
论文数:
0
引用数:
0
h-index:
0
张伟楠
;
刘明桓
论文数:
0
引用数:
0
h-index:
0
刘明桓
;
赵寒烨
论文数:
0
引用数:
0
h-index:
0
赵寒烨
.
中国专利
:CN114219085A
,2022-03-22
[2]
一种基于扩散模型的离线强化学习方法
[P].
谭俊波
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
谭俊波
;
何龙祥
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
何龙祥
;
郭冠求
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
郭冠求
;
论文数:
引用数:
h-index:
机构:
王学谦
;
论文数:
引用数:
h-index:
机构:
梁斌
.
中国专利
:CN117669689A
,2024-03-08
[3]
多方联合更新的离线强化学习方法
[P].
冯黎明
论文数:
0
引用数:
0
h-index:
0
冯黎明
;
马煜翔
论文数:
0
引用数:
0
h-index:
0
马煜翔
;
裴阳
论文数:
0
引用数:
0
h-index:
0
裴阳
;
刘文博
论文数:
0
引用数:
0
h-index:
0
刘文博
;
邢冰
论文数:
0
引用数:
0
h-index:
0
邢冰
;
王玥
论文数:
0
引用数:
0
h-index:
0
王玥
.
中国专利
:CN114997410A
,2022-09-02
[4]
一种基于行为动作生成的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
张永爱
;
李海峰
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学
福州大学
李海峰
;
论文数:
引用数:
h-index:
机构:
吴朝兴
;
论文数:
引用数:
h-index:
机构:
周雄图
;
论文数:
引用数:
h-index:
机构:
郭太良
.
中国专利
:CN119514639A
,2025-02-25
[5]
一种基于分数模型的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
李秀
;
刘泽源
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
刘泽源
;
方智睿
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
方智睿
;
吕加飞
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
吕加飞
.
中国专利
:CN120087446A
,2025-06-03
[6]
一种基于凸包约束的离线强化学习方法和装置
[P].
论文数:
引用数:
h-index:
机构:
詹仙园
;
李健雄
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
李健雄
.
中国专利
:CN114970881B
,2024-08-20
[7]
一种有效泛化的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
冯涣婷
;
王雪松
论文数:
0
引用数:
0
h-index:
0
机构:
江苏信息职业技术学院
江苏信息职业技术学院
王雪松
;
程玉虎
论文数:
0
引用数:
0
h-index:
0
机构:
江苏信息职业技术学院
江苏信息职业技术学院
程玉虎
;
祝强
论文数:
0
引用数:
0
h-index:
0
机构:
江苏信息职业技术学院
江苏信息职业技术学院
祝强
.
中国专利
:CN118378689A
,2024-07-23
[8]
一种基于条件扩散模型的安全离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王丽芳
;
李沛聪
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学
中北大学
李沛聪
;
论文数:
引用数:
h-index:
机构:
王晋光
;
论文数:
引用数:
h-index:
机构:
秦品乐
;
论文数:
引用数:
h-index:
机构:
柴锐
;
论文数:
引用数:
h-index:
机构:
于一
.
中国专利
:CN120317317A
,2025-07-15
[9]
一种基于逆扩散引导策略的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
论文数:
引用数:
h-index:
机构:
张佳志
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
李会军
;
论文数:
引用数:
h-index:
机构:
赵忠祥
.
中国专利
:CN117952186A
,2024-04-30
[10]
一种基于逆扩散引导策略的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
论文数:
引用数:
h-index:
机构:
张佳志
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
李会军
;
论文数:
引用数:
h-index:
机构:
赵忠祥
.
中国专利
:CN117952186B
,2024-07-12
←
1
2
3
4
5
→