一种基于扩散的双生成回放的持续离线强化学习方法

被引：0

专利类型：

发明

申请号：

CN202311656001.7

申请日：

2023-12-04

公开(公告)号：

CN117634647A

公开(公告)日：

2024-03-01

发明(设计)人：

王志刘金梅李文斌魏婧雯陈春林王博李华雄辛博朱张青

申请人：

南京大学

申请人地址：

210093 江苏省南京市鼓楼区汉口路22号

IPC主分类号：

G06N20/00

IPC分类号：

G06F18/214

代理机构：

南京天翼专利代理有限责任公司 32112

代理人：

奚铭

法律状态：

公开

国省代码：

江苏省南京市

引用

下载

收藏

法律状态

法律状态公告日	法律状态	法律状态信息
2024-03-01	公开	公开
2024-03-19	实质审查的生效	实质审查的生效IPC(主分类):G06N 20/00申请日:20231204

共 50 条

[1]

一种基于扩散模型的离线强化学习方法 [P].

谭俊波 ;

何龙祥 ;

郭冠求 ;

王学谦 ;

梁斌 .

中国专利 :CN117669689A ,2024-03-08

[2]

一种基于行为动作生成的离线强化学习方法 [P].

张永爱 ;

李海峰 ;

吴朝兴 ;

周雄图 ;

郭太良 .

中国专利 :CN119514639A ,2025-02-25

[3]

一种基于条件扩散模型的安全离线强化学习方法 [P].

王丽芳 ;

李沛聪 ;

王晋光 ;

秦品乐 ;

柴锐 ;

于一 .

中国专利 :CN120317317A ,2025-07-15

[4]

一种基于逆扩散引导策略的离线强化学习方法 [P].

王雪松 ;

张佳志 ;

程玉虎 ;

李会军 ;

赵忠祥 .

中国专利 :CN117952186B ,2024-07-12

[5]

一种基于逆扩散引导策略的离线强化学习方法 [P].

王雪松 ;

张佳志 ;

程玉虎 ;

李会军 ;

赵忠祥 .

中国专利 :CN117952186A ,2024-04-30

[6]

一种基于扩散状态规划的决策Transformer离线强化学习方法 [P].

王雪松 ;

张恒瑞 ;

程玉虎 ;

万红 .

中国专利 :CN120181138B ,2025-08-12

[7]

一种基于扩散状态规划的决策Transformer离线强化学习方法 [P].

王雪松 ;

张恒瑞 ;

程玉虎 ;

万红 .

中国专利 :CN120181138A ,2025-06-20

[8]

一种基于分数模型的离线强化学习方法 [P].

李秀 ;

刘泽源 ;

方智睿 ;

吕加飞 .

中国专利 :CN120087446A ,2025-06-03

[9]

基于高效分层扩散离线强化学习的博弈对抗策略生成方法 [P].

彭浩 ;

曾祥华 ;

解勤思 ;

杨梦茹 ;

王一鸣 ;

吴冠霖 ;

李昂生 .

中国专利 :CN120597984A ,2025-09-05

[10]

基于分数的扩散模型生成回放的类增量学习方法 [P].

莫建文 ;

左丽芳 ;

欧阳宁 ;

林乐平 .

中国专利 :CN117407808A ,2024-01-16

← 1 2 3 4 5 →