学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种基于扩散的双生成回放的持续离线强化学习方法
被引:0
专利类型
:
发明
申请号
:
CN202311656001.7
申请日
:
2023-12-04
公开(公告)号
:
CN117634647A
公开(公告)日
:
2024-03-01
发明(设计)人
:
王志
刘金梅
李文斌
魏婧雯
陈春林
王博
李华雄
辛博
朱张青
申请人
:
南京大学
申请人地址
:
210093 江苏省南京市鼓楼区汉口路22号
IPC主分类号
:
G06N20/00
IPC分类号
:
G06F18/214
代理机构
:
南京天翼专利代理有限责任公司 32112
代理人
:
奚铭
法律状态
:
公开
国省代码
:
江苏省 南京市
引用
下载
收藏
法律状态
法律状态公告日
法律状态
法律状态信息
2024-03-01
公开
公开
2024-03-19
实质审查的生效
实质审查的生效IPC(主分类):G06N 20/00申请日:20231204
共 50 条
[1]
一种基于扩散模型的离线强化学习方法
[P].
谭俊波
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
谭俊波
;
何龙祥
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
何龙祥
;
郭冠求
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
郭冠求
;
论文数:
引用数:
h-index:
机构:
王学谦
;
论文数:
引用数:
h-index:
机构:
梁斌
.
中国专利
:CN117669689A
,2024-03-08
[2]
一种基于行为动作生成的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
张永爱
;
李海峰
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学
福州大学
李海峰
;
论文数:
引用数:
h-index:
机构:
吴朝兴
;
论文数:
引用数:
h-index:
机构:
周雄图
;
论文数:
引用数:
h-index:
机构:
郭太良
.
中国专利
:CN119514639A
,2025-02-25
[3]
一种基于条件扩散模型的安全离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王丽芳
;
李沛聪
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学
中北大学
李沛聪
;
论文数:
引用数:
h-index:
机构:
王晋光
;
论文数:
引用数:
h-index:
机构:
秦品乐
;
论文数:
引用数:
h-index:
机构:
柴锐
;
论文数:
引用数:
h-index:
机构:
于一
.
中国专利
:CN120317317A
,2025-07-15
[4]
一种基于逆扩散引导策略的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
论文数:
引用数:
h-index:
机构:
张佳志
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
李会军
;
论文数:
引用数:
h-index:
机构:
赵忠祥
.
中国专利
:CN117952186B
,2024-07-12
[5]
一种基于逆扩散引导策略的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
论文数:
引用数:
h-index:
机构:
张佳志
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
李会军
;
论文数:
引用数:
h-index:
机构:
赵忠祥
.
中国专利
:CN117952186A
,2024-04-30
[6]
一种基于扩散状态规划的决策Transformer离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
张恒瑞
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学
中国矿业大学
张恒瑞
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
万红
.
中国专利
:CN120181138B
,2025-08-12
[7]
一种基于扩散状态规划的决策Transformer离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
王雪松
;
张恒瑞
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学
中国矿业大学
张恒瑞
;
论文数:
引用数:
h-index:
机构:
程玉虎
;
论文数:
引用数:
h-index:
机构:
万红
.
中国专利
:CN120181138A
,2025-06-20
[8]
一种基于分数模型的离线强化学习方法
[P].
论文数:
引用数:
h-index:
机构:
李秀
;
刘泽源
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
刘泽源
;
方智睿
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
方智睿
;
吕加飞
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学深圳国际研究生院
清华大学深圳国际研究生院
吕加飞
.
中国专利
:CN120087446A
,2025-06-03
[9]
基于高效分层扩散离线强化学习的博弈对抗策略生成方法
[P].
论文数:
引用数:
h-index:
机构:
彭浩
;
曾祥华
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
北京航空航天大学
曾祥华
;
解勤思
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
北京航空航天大学
解勤思
;
杨梦茹
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
北京航空航天大学
杨梦茹
;
王一鸣
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
北京航空航天大学
王一鸣
;
吴冠霖
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
北京航空航天大学
吴冠霖
;
论文数:
引用数:
h-index:
机构:
李昂生
.
中国专利
:CN120597984A
,2025-09-05
[10]
基于分数的扩散模型生成回放的类增量学习方法
[P].
论文数:
引用数:
h-index:
机构:
莫建文
;
左丽芳
论文数:
0
引用数:
0
h-index:
0
机构:
桂林电子科技大学
桂林电子科技大学
左丽芳
;
论文数:
引用数:
h-index:
机构:
欧阳宁
;
论文数:
引用数:
h-index:
机构:
林乐平
.
中国专利
:CN117407808A
,2024-01-16
←
1
2
3
4
5
→